I. Las tablas de frecuencias y representaciones gráficas Se proporcionará un conjunto de herramientas o técnicas estadísticas para el tratamiento de la información, tanto cualitativa como cuantitativa, que facilitan el manejo y análisis de los datos. En la etapa de organización de los datos, nos referimos a la clasificación y tabulación de los mismos. Por lo tanto, luego que los tenemos, se dividirá la información en clases previamente definidas, en función de una o más características. Un elemento cualquiera del conjunto de datos pertenecerá a una clase determinada, si cumple con las características de esa clase. De lo contrario, pertenecerá a otra clase. Las clases deben ser excluyentes y exhaustivas, es decir que cada elemento del conjunto debe pertenecer a una sola clase y a su vez, todo elemento debe pertenecer a alguna clase. O sea que todo elemento debe quedar dentro de una clase pero no puede estar en dos clases a la vez. Cuando la división en clases se realiza en función de alguna característica cualitativa, nos encontramos frente a datos cualitativos o atributos. Un atributo es una cualidad que nos permite diferenciar los individuos u objetos del conjunto según posean o no dicha cualidad. Ejemplo: sexo, estado civil, profesión, color, etc. El número de clases en que puede agruparse la información depende del atributo elegido. Si clasificamos a las personas en función del sexo, este atributo admite dos clases: masculino, femenino. Nos encontramos frente a un caso de partición dicotómica. Si la clasificación se realiza en función del estado civil, podemos establecer mas clases: soltero, casado, divorciado, viudo, etc. En esta situación hablamos de partición múltiple. Todo atributo que admite una partición múltiple puede ser llevado a otra dicotómica, agrupando alguna de las clases en una sola. Si agrupamos todos los no casados, pasamos a dos clases: casados y no casados. Esta agrupación puede ser útil en algunas situaciones, pero se pierde información. La nomenclatura que utilizaremos para un dato cualitativo es “A”; “B”, etc. y para los elementos de su partición será: a.- Partición dicotómica: a: pertenecer a una clase. ā: pertenecer a la otra clase b.- Partición múltiple: a1, a2, a3, ..................ai, donde el subíndice “i” representa la cantidad de clases. 1 Cuando la división en clases se realiza en función de alguna característica cuantitativa, nos encontramos frente a datos cuantitativos o variables. Ejemplo: estatura, ingresos, cantidad de miembros de una familia, Cantidad de libros en préstamo, número de hijos, edad entre otras cosas y los valores que pueden tomar dependerá de la variable. Lo expresado anteriormente nos conduce a diferenciar dos tipos de variables: Discretas : son aquellas variables que solo pueden tomar un conjunto finito de valores, generalmente valores enteros. La cantidad de libros en préstamo es un caso típico de variable discreta, pudiendo tomar los valores 0,1, 2, 3........n. Continuas : son aquellas variables que pueden tomar a priori un conjunto infinito de valores. Generalmente son las magnitudes vinculadas a longitudes, superficies, volumen, edad, duración o peso. Pero por razones de medición se discretizan y ese valor observable representa un valor dentro de un intervalo teórico. Para este tipo de datos la nomenclatura que utilizaremos será similar que para atributos, con la única diferencia que se usará la letra “X “. 2.1.- Distribuciones de frecuencias. La distribución de frecuencias es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia. Toda variable o atributo tiene asociada una distribución de frecuencias, que implica una correspondencia biunívoca entre dos conjuntos. Por un lado, tenemos el conjunto formado por los valores que toma la variable o el atributo y por el otro el de las frecuencias relacionadas con ellos La asociación existe en ambos sentidos, pues a cada valor de la variable o atributo, denominado clase, le corresponde una frecuencia y a su vez cada frecuencia se identifica con una clase de la variable 2.1.1.- Frecuencia absoluta y relativa. frecuencia absoluta : es la cantidad de datos que integran cada una de las clases, o sea que son las repeticiones que encontramos dentro de una misma clase. 2 La notación en atributos es: n(ai), siendo “i” el subíndice asignado para referenciar las diferentes clases. La notación en variables es: n (x i). Las propiedades de las frecuencias absolutas son: a. - 0 ≤ n( a i ) ≤ n , siendo “n” el tamaño de la muestra. b. - Σ n (a i) = n 0 ≤ n( x i ) ≤ n Σ n(x i) = n , La correspondencia entre los valores de la variable y su frecuencia absoluta determina lo que denominamos “distribución de frecuencias absolutas” Frecuencia relativa : es la cantidad de repeticiones obtenidas para cada clase, en relación al total de las observaciones. Resulta de dividir la cantidad de elementos de cada clase (frecuencia absoluta) por el tamaño de la muestra. La notación es h (a i) o h(x i), según el tipo de variable. De acuerdo a la definición: h (ai ) n ( ai ) n Las propiedades de las frecuencias relativas son: a. - 0 ≤ h( a i ) ≤ 1 b. - Σ h (a i) = 1 , , 0 ≤ h( x i ) ≤ 1 Σ h(x i) = 1 Las frecuencias relativas son un porcentaje, ya que relacionan una parte del conjunto con el total La correspondencia entre los valores de la variable y su frecuencia relativa determina lo que denominamos “distribución de frecuencias relativas” Trataremos por separado ejemplos para datos cualitativos y cuantitativos. En el caso de los atributos, estos ya vimos que pueden clasificarse en dicotómicos o múltiples. 3 En el caso de variables tendremos 3 situaciones distintas, dependiendo del tipo de variable, el tamaño de la muestra y el número de observaciones EJEMPLO N º 1.- ATRIBUTOS (partición múltiple) El atributo analizado es A: lugar de procedencia del alumnado de la EUBCA. Supongamos que el alumnado es de 1600 alumnos y la distribución por departamentos es: (luego de haber corregido y tabulado los datos) A i : Procedencia n (a i ): frec. absoluta h (a i): frec. relativa a 1 : Montevideo 1000 0.625 a 2 : Rivera 100 0.063 a 3 : Colonia 80 0.05 a 4 : Tacuarembó 45 0.028 a 5 : Paysandú 50 0.031 a 6 : Salto 40 0.025 a 7 : Canelones 285 0.178 TOTAL 1600 1 Esto da lugar a una partición múltiple. EJEMPLO N º 2.- ATRIBUTOS (partición dicotómica) Si agrupamos como estudiantes de Montevideo y del Interior tendríamos una clasificación dicotómica. Procedencia Frec. Absoluta. Frec. relativa Montevideo 1000 0.625 4 Interior Total 600 0.375 1600 1 La información también puede ser presentada en gráficos, lo cual expondremos con posterioridad. Con cuadro y gráfico estamos presentando la información y con las frecuencias relativas estamos analizando la misma. EJEMPLO N º 3.- VARIABLES (cantidad de observaciones pequeña) La variable analizada es X: puntaje de una prueba de Estadística. Supongamos que el total de alumnos que dieron la prueba es 7 y el puntaje de la prueba es de 0 a 5. Los resultados obtenidos fueron: 0, 2, 2, 1, 4, 5, 3. Se colocan todas las observaciones en forma separada, aunque algunas tengan el mismo valor, por lo tanto el número de clases es igual al de las observaciones, siendo la frecuencia de cada clase igual a 1. Esto daría lugar al siguiente cuadro: Puntaje Frec. absolutas Frec. relativas 0 1 1/7 1 1 1/7 2 1 1/7 2 1 1/7 3 1 1/7 4 1 1/7 5 1 1/7 7 1 El cuadro correspondiente no es nada significativo, ya que salvo el 2, todas las frecuencias son de uno. 5 EJEMPLO N º 4.- VARIABLES (muestras relativamente grandes con Pocos valores de la variable) La variable es la misma que la analizada en el ejercicio anterior, con la diferencia que la muestra es de mayor tamaño y por lo tanto cada valor se repite muchas veces, dando lugar a frecuencias mayores que 1. Generalmente estas situaciones se dan con mayor frecuencia en variables discretas. Los resultados obtenidos fueron: 2, 5, 1, 2, 0, 2, 1, 5, 1, 4, 3, 0, 5, 4, 4, 3, 3, 2, 4, 5.Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencias: Puntaje Frec. absoluta Frec. relativa 0 2 0.10 1 3 0.15 2 4 0.20 3 3 0.15 4 4 0.20 5 4 0.20 Total 20 1 Existe una tercer situación que la veremos en el punto 2.2.- 2.1.2.- Frecuencias acumuladas. Este concepto es aplicable solamente para variables, ya que para atributos no tiene sentido. La frecuencia acumulada es aquella que acumula frecuencias relativas hasta un determinado valor de la variable. Sumando las frecuencias de todos los valores inferiores a un límite fijado, obtenemos la frecuencia relativa acumulada hasta ese valor. 6 La correspondencia entre los valores de la variable y su frecuencia acumulada se denomina “Función de distribución acumulada” y se expresa como F* (x i ). Esta función cumple con las siguientes propiedades: F* (x i ) = 1 cuando la distribución alcanza su máximo. Al llegar al último valor, la función no crece más por no existir frecuencias para acumular. F* (x i ) = 0 cuando la distribución alcanza su mínimo. Por debajo del primer valor, la función sigue valiendo cero porque tampoco existen frecuencias. F* (x i ) es no decreciente, pues al crecer el valor de la variable, la función puede ir creciendo o mantenerse constante, ya que las frecuencias que se acumulan nunca son negativas y lo mínimo que pueden valer es cero. F*(xi) es continua, y de acuerdo al tipo de distribución , puede ser continua por la derecha o por ambos dados . 2.2.- Frecuencia de una variable agrupada en intervalos. Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencias muy extensa que aportaría muy poco valor a efectos de síntesis. Este agrupamiento deliberado en intervalos hace perder información, pero a su vez permite manejar datos que por su volumen no podrían ser analizados ni interpretados. El número de tramos en los que se agrupa la información es una decisión que debe tomar el analista. La regla es que mientras más tramos se utilizan menos información se pierde, pero puede que menos representativa e informativa sea la tabla. Por lo tanto, lo primero que debemos observar es el recorrido total de la variable y dividirlo en tantos intervalos como sea conveniente, tratando de no superar los 15 y que no sean menos de 4 o 5. El siguiente ejemplo muestra el agrupamiento. 7 EJEMPLO N º 5.- VARIABLES (muestras relativamente grandes con muchos valores de la variable) Supongamos que nos encontramos con una prueba cuyo puntaje varía de 0 a 50 y tomamos una muestra de 45 alumnos. Los resultados individuales son: 1 41 38 22 43 29 19 16 1 35 29 2 29 46 20 31 2 20 25 22 25 31 3 19 15 42 38 30 16 18 28 18 3 27 23 28 6 12 32 36 7 28 10 50 28 Uno de los agrupamientos posibles sería en 5 intervalos, de amplitud 10 cada uno. Intervalos de clase fi –frec absoluta h(x )frec. relativa ( 0 – 10 ] 9 0.20 ( 10 – 20 ] 10 0.22 ( 20 – 30 ] 13 0.29 ( 30 – 40 ] 8 0.18 ( 40 – 50 ] 5 0.11 45 1 **Para representar datos en intervalos de clases se aplica la regla de STURGES para hallar la anchura o amplitud de clases Ac Ac R Rango o recorrido total 1 3,322log N Número de clases 2.3.- Representaciones Gráficas. Estos cuadros de distribuciones generalmente van acompañados con gráficas, especificas para cada caso, y que permiten una más rápida comprensión de los datos. 2.3.1.- Diagrama de barras y de sectores. 8 El gráfico de barras, como su nombre lo indica, son barras del ancho que se desee, y de altura la frecuencia absoluta o relativa. 1200 1000 800 600 400 200 es C an el on Sa lto nd ú re m cu a Ta Pa ys a bó ia on C ol iv e R M on t . ra 0 En cuanto al gráfico de sectores, también denominado circular o de pastel, su forma es circular y cada frecuencia esta representada por un sector del círculo. Este gráfico permite apreciar que parte representa cada clase dentro del total, pero a veces se hace difícil apreciar la diferencia entre una frecuencia y otra. 18% Mont. 3% Rivera 3% Colonia 3% Tacuarembó 5% 6% 62% Paysandú Salto Canelones Ambos gráficos son utilizados fundamentalmente para representar atributos. 9 2.3.2.- Diagrama de bastones y escalonado. El gráfico de bastones es un gráfico en barra, pero con una variante en la amplitud de la barra, ya que en estos casos sería una línea (bastón), con una altura que sería la frecuencia absoluta o relativa. Se aplica fundamentalmente para las distribuciones de variables y en particular para las que se muestran en el ejemplo 4.- 4,5 4 3,5 3 2,5 2 0 1,5 1 0,5 0 0 1 2 3 4 5 (El bastón debería ser una línea) En cuanto al gráfico escalonado, es el que se utiliza para representar la función de distribución de una variable en la situación del ejemplo 4. Ojiva: es un histograma y su polígono de frecuencia donde se observan las frecuencias acumuladas 10 Función de distribución acumulada 1,2 frecuencias 1 0,8 0,6 0,4 0,2 0 Puntaje 2.3.3.- Histograma de frecuencias. En el caso de la variable que debe ser agrupada en intervalos, los valores que caen dentro de cada intervalo se consideran distribuidos uniformemente dentro del mismo., y las frecuencias ya no son alturas, sino áreas, por lo que la representación gráfica son rectángulos, que tienen por base la amplitud del intervalo y por altura lo que denominaremos “función de densidad” y que se define de la siguiente manera: f*(x i )= frecuencia relativa / amplitud del intervalo La representación gráfica de esta función de densidad recibe el nombre de “histograma”. Los intervalos elegidos no tienen porque tener siempre la misma amplitud, en algunas situaciones se toman intervalos mayores donde no se necesita tanta precisión o en los extremos de la distribución 11 Distribucion por puntaje Funcion de densidad 0,035 0,03 0,025 0,02 0,015 0,01 0,005 0 Puntaje En cuanto a la gráfica de la función de distribución acumulada, en esta situación no es escalonada, sino que es lineal, ya que los valores no se encuentran agrupados en torno a un punto, sino que lo hacen en un intervalo. A continuación se presenta la gráfica mencionada anteriormente, con base a los datos del ejemplo Nº 5. 12 Funcion de distribución acumulada 1,2 frecuencias 1 0,8 0,6 0,4 0,2 0 0 10 20 30 40 50 Puntaje 2.3.4.- Gráficos lineales. En el punto anterior mencionamos que la gráfica de la función de distribución de una variable agrupada en intervalos, es lineal. También los datos temporales suelen representarse con un gráfico lineal, los que serán tratados en su oportunidad. Cabe destacar que los gráficos y las tablas de distribución estadísticas deben poseer un titulo, una matriz o grafico representativo y la fuente de donde fue extraída la información II. Medidas de tendencia central Ahora bien, hablemos de las medidas de tendencia central o centralización son valores únicos que representan el centro de la distribución de los valores. Las diferentes medidas de tendencia central representan el centro de maneras diferentes. La media aritmética representa el "centro de gravedad" de los datos. La mediana representa la mitad de los datos, con la mitad de las observaciones por encima y la otra mitad por debajo. La moda representa el "pico" o el valor más frecuente. La media geométrica es comparable con la media aritmética en la escala logarítmica. Las medidas de dispersión describen la variabilidad de la distribución observada. El rango mide la dispersión desde el valor más pequeño hasta el valor 13 más grande. La desviación estándar, usando en conjunto con la media aritmética, refleja que tan cerca están los valores observados a la media. Para una distribución normal, 95% de los datos se encuentran dentro del rango de -1,96 desviaciones estandares a +1,96 desviaciones típicas. El rango intercuartílico, usado en conjunto con la mediana, representa el rango desde el percentil 25 al percentil 75, más o menos el 50% central de los datos. En general, se hace un resumen de los datos con una distribución normal con la media aritmética y la desviación estándar. Para los datos asimétricos o los datos con valores extremos, se utiliza la mediana y el rango intercuartílico. Para los datos en una escala logarítmica, se utiliza la media geométrica. Se puede utilizar la moda y el rango para dar información adicional, pero raras veces se usan solos. Notación estadística Antes de proseguir, le sugerimos que revise la notación estadística usada en la unidad y que se describe en el cuadro siguiente: Observación individual: Número observaciones: Notación estadística utilizada en esta unidad Una letra usualmente X o Y se usa para representar una variable particular, como por ejemplo: la paridad. Una observación individual en una serie de datos se representa por Xi. de La letra n o N se usa para representar el número de observaciones de una serie de datos. La letra fi (para una frecuencia individual) se utiliza para representar con qué frecuencia aparece un valor en la serie de datos. Multiplicación: Cuando los valores se escriben juntos, por ejemplo, XY significa que se multiplica el valor de X por el de Y. Paréntesis: Los paréntesis se usan: Para indicar multiplicación, por ejemplo (X)(Y) quiere decir que se multiplica X por Y. Para demostrar que lo que está en el paréntesis debe ser tratado como términos separados por ejemplo (X+Y)2 significa que se debe sumar a X el valor de Y luego elevar al cuadrado el valor de la adición. 14 Sumatoria: Se usa la letra griega mayúscula para indicar que una lista de números debe ser sumada; por ejemplo, se desea indicar que se debe sumar la paridad usada en el Ejercicio 2.1. Se deberían listar los números individualmente: 0+2+0+0+1+3+1+4+1+8+2+2+0+1+3+5+1+7+2. Esto es ineficiente aún con una lista corta de números. En cambio se puede usar esta notación estadística: i 19 x i 1 i Esta notación se lee: sumatoria de los X desde i=1 hasta i=19. Aún puede ser más corta así: xi se lee como la sumatoria de los xi De esta manera tenemos que las medidas de tendencia central y las medidas de posición las podemos clasificar así: media aritmetica X media ponderada X p promedios matemáticos media geometrica G media armonica H Medidas de tendencia central Mediana Me promedios no matemáticos Moda Mo 15 Quartil 1 = Q1 =25% Quartiles Quartil 2= Q 2 =50% Mediana D 5 =P50 Quartil 3=Q = 75% 3 Decil 1=D1 10% Decil2=D 2 20% Medidas de posición Decil Decil 9=D9 90% P1 1% Percentil= P 99% 99 Se calcula una medida de tendencia central cuando se necesita un valor único que resuma una serie de datos; por ejemplo: si se presentara la información de las muertes por suicidio en los Estados Unidos en 1987, se puede decir que la edad mediana de las personas que cometieron suicidio fue de 41.9 años. La mejor medida en cada caso particular, depende tanto de las características de la distribución, así como de la forma y del uso que se quiera dar a la medida. La media aritmética Es la medida de tendencia central con la cual probablemente esté usted mas familiarizado es la media aritmética; se conoce también como media o promedio; se representa como x y se conoce como "x barra"; la fórmula para calcularla es: Media aritmética x x i n Se lee así: la media es igual a “la suma de las x ,s dividido por n”. 16 1.-Si los datos se repiten tenemos que: x x f i i n donde xi son los datos observados y fi las veces que se repiten dichos datos 2. Si los datos están agrupados en intervalos de clases x x f i i donde xi n representa el punto medio o marca de clases de cada intervalo y fi las veces que se repiten dichos datos Ejemplo # 1: En un brote de hepatitis A, 6 personas iniciaron síntomas 24 a 31 días después de la exposición. Calcule el promedio del período de incubación en éste brote; los períodos de incubación para las personas afectadas (Xi) fueron: 29, 31, 24, 29, 30 y 25 1.Para calcular el numerador sume las observaciones individuales xi = 29+31+24+29+30+25= 168 2.- Para calcular el denominador cuente el número de las observaciones: n=6 3.Para calcular la media, divida el numerador sumatoria de las observaciones entre el denominador (numero de las observaciones). Media Aritmética x 29 31 24 29 30 25 168 28 días 6 6 Entonces, el promedio del período de incubación del brote es 28 días. Ejemplo # 2 En una lista de 5 variables para 11 personas. Vamos a demostrar como se calcula la media de cada variable (A-E) en el listado. (Fíjese que este listado de variables, A, B, C, D y E, será utilizado a lo largo del tema en otros ejemplos y ejercicios). 17 Variables Persona # A B C D E 1 2 3 4 5 6 7 8 9 10 11 0 0 1 1 1 5 9 9 9 10 10 0 4 4 4 5 5 5 6 6 6 10 0 1 2 3 4 5 6 7 8 9 10 0 1 1 2 2 2 3 3 3 4 10 0 6 7 7 7 8 8 8 9 9 10 1. Para calcular el numerador, sume todas las observaciones individuales: A. xi = 0+0+1+1+1+5+9+9+9+10+10 = 55 B. xi = 0+4+4+4+5+5+5+6+6+6+10 = 55 C. xi = 0+1+2+3+4+5+6+7+8+9+10 = 55 D. xi = 0+1+1+2+2+2+3+3+3+4+10 = 31 E. xi = 0+6+7+7+7+8+8+8+9+9+10 = 79 2.- Para calcular el denominador cuente el número de observaciones (n=11) para cada variable. 3.- Para calcular la media, divida el numerador (suma de las observaciones) entre el denominador (número de las observaciones). Media de la variable A= 55/11= 5 Media de la variable B= 55/11= 5 Media de la variable C= 55/11= 5 Media de la variable D= 31/11= 2.82 Media de la variable E= 79/11= 7.18 18 Se usa la media aritmética más que cualquier otra medida de localización central porque tiene propiedades estadísticas deseables; una de éstas es la propiedad de centrar la media. Se puede demostrar ésta propiedad con el ejemplo del brote de hepatitis A. En El cuadro al tomar el valor de los períodos de incubación y restarle la media al sumar las diferencias debe dar 0. Esto demuestra que la media es el centro de la distribución. La sumatoria de los desvíos con respeto a la media aritmética siempre es cero x x 0 n i 1 Valor menos la media 24-28 25-28 29-28 29-28 30-28 31-28 168-168.0=0 x x i i Diferencia obtenida -4 -3 +1.0 +1.0 +2.0 +3.0 x x 0 n -7+7=0 i 1 i Gracias a ésta propiedad, a la media se le llama "el centro de gravedad" de una distribución de frecuencias. Esto significa que la media actúa como el punto de apoyo en una balanza, como se ve en la figura siguiente La media es el centro de gravedad de la distribución Aunque la media es una excelente medida de resumen de una serie de datos, éstos deben seguir una distribución aproximadamente normal. La media es muy sensible a 19 valores extremos que sesgan la distribución. Por ejemplo, si en vez del 31 de la lista anterior, tuviéramos un 131 la media cambiaría de 28.0 a 44.7 24+25+29+29+30+131 = 44.7 6 La media de 44.7 es el centro de gravedad para esos datos, pero para propósitos prácticos es poco representativa de éstos. Como resultado, la media es mayor que todos los valores a excepción del valor extremo. Por ser muy sensible a valores extremos, la media es una medida resumen muy pobre para datos que están gravemente sesgados en cualquier dirección. La mediana (Me) Otra medida de tendencia central es la mediana; como se verá es especialmente útil cuando los datos están sesgados. Mediana significa a la mitad y la mediana es el valor a la mitad de una serie de datos que han sido colocados en orden. Específicamente, la mediana es el valor que divide una serie de datos en dos mitades con una mitad de las observaciones mayores que ésta y la otra mitad menores a la mediana. Por ejemplo al tener los siguientes datos de tensiones arteriales sistólicas: 110, 120,122,130,180 mm de Hg. En este ejemplo, hay dos observaciones mayores y dos menores que 122, luego entonces, la mediana es 122 mm de Hg, el valor de la 3ª observación. Al obtener la media (132) ésta seria mayor que 4 de los 5 valores. Cómo identificar la mediana de datos individuales 1.- Ordene los datos de menor a mayor o viceversa 2.- Encuentre el rango medio con la siguiente fórmula Rango mediano= (n+1) 2 a. Si el número de observaciones (n) es impar el rango medio cae en una observación. n es par el rango medio cae entre dos observaciones. 3.- Identifique el valor de la mediana 20 a. Si el rango medio cae en una observación específica (n=impar) la mediana es igual al valor de ésta observación. b. Si el rango medio cae entre dos observaciones (n=par) la mediana es igual al promedio (media aritmética) del valor de estas observaciones. Ejemplo con número impar de observaciones: n=5: 13,7,9,15,11 1.- Ordenar de mayor a menor: 7,9,11,13,15. o viceversa: 15,13,11,9,7. 2.- Encontrar el rango mediano Rango mediano = (n+1) = 5+1 = 3 2 2 Entonces, el rango medio cae en el valor de la 3a observación. 3.Identificar el valor de la mediana que es igual al valor de la tercera observación=11 Ejemplo con número par de observaciones: n=6: 15,7,13,9,10,11 1.- Ordenar los datos 7,9,10,11,13,15 2.- Encontrar el rango medio Rango mediano = (n+1)= 6+1 = 3.5 2 2 Entonces, el rango medio cae entre el valor de la 3a y la 4a observación. 3.Identificar el valor de la mediana que es igual al promedio de la 3a y 4a observación Mediana = 11+10 = 10.5 2 21 La mediana para datos agrupados en clases se encuentra por interpolación. Veamos: N Fi 1 2 Ac Me Li fiMe Donde: Li limite inferior de la clase que contiene a la mediana N Indicador de posición de la mediana, el lugar del 50% de los datos 2 Fi 1 Frecuencia acumulada anterior a la clase medianal fiMe frecuencia absoluta que contiene a la mediana Ac Amplitud de clase o ancho de clase del intervalo que contiene a la mediana En contraste con la media, la mediana no está influenciada por valores extremos. Ejemplo: A 24, 25,29,30, 31 Media 28.0 mediana 29 B 24,25,29,30,131 Media 44.7 mediana 29 Se observa cómo una observación altera la media pero no cambia la mediana, entonces se prefiere la mediana como medida de tendencia central cuando los datos están desviados en cualquier dirección o cuando los datos incluyen valores extremadamente grandes o pequeños. Ejemplo A 0 0 1 1 1 5 9 9 9 10 10 B 0 4 4 4 5 5 5 6 6 6 10 C 0 1 2 3 4 5 6 7 8 9 10 D 0 1 1 2 2 2 3 3 3 4 10 E 0 6 7 7 7 8 8 8 9 9 10 1.- Organice las observaciones en orden creciente (ya está hecho) 2.- Encuentre el rango medio de las observaciones (11 observaciones + 1)/2 =12/2=6 22 3.- Identifique el valor de la mediana que es el de la 6ª observación: La mediana para las variables A, B y C es 5; La mediana para la variable D es 2; La mediana para la variable E es 8; La moda (Mo) La moda es el valor que ocurre más frecuentemente en una serie de datos; por ejemplo en los siguientes datos, la moda es 1 por que ocurre 4 veces, más que cualquier otro valor. 0,0,1,1,1,1,2,2,2,3,4,6. Finalmente, se encuentra la moda como una distribución de frecuencia en la cual se ve cuántas veces ocurre un valor. Si se encuentra que cada valor ocurre solo una vez, entonces ésta distribución carece de moda, o si se advierte que 2 o más valores son los más comunes, entonces tiene más de una moda. La Moda para datos agrupados en clases se calcula a través de la interpolación siguiente: 1 Mo Li Ac 1 2 Donde: Li limite inferior de la clase que contiene a la moda-frecuencia absoluta mayor 1 : Diferencia absoluta entre la frecuencia modal y la frecuencia absoluta anterior 2 Diferencia absoluta entre la frecuencia modal y la frecuencia absoluta posterior Ac Amplitud de clase o ancho de clase del intervalo que contiene a la mediana Ejemplo1 En este ejemplo demostraremos los pasos para que encuentre la moda utilizando los siguientes datos: 29,31,24,29,30,25 días. 23 1.- Organice los datos en una distribución de frecuencia, mostrando los valores de la variable (xi) y la frecuencia fi cada vez que el valor ocurra: xi 24 25 29 30 31 fi 1 1 2 1 1 2.- Identifique el valor que ocurre más frecuentemente: 29; la moda es 29. Ejemplo 2 Demostraremos como encontrar la moda del siguiente conjunto de datos: 15,9,19,13,17,11. 1.- Organice los datos en una distribución de frecuencia: xi 9 11 13 15 17 19 fi 1 1 1 1 1 1 2.- Identifique el valor que ocurre más frecuentemente; como todos los valores tienen la misma frecuencia no hay moda para esta distribución de datos. Ejemplo 3 Demostraremos cómo encontrar la moda utilizando los datos siguientes: 17, 9, 15, 9,17, 13. 1.- Organice los datos en una distribución de frecuencia: xi 9 13 15 17 fi 2 1 1 2 24 2.Identifique el valor que ocurre más frecuentemente; los valores 9 y 17 tienen la misma frecuencia ya que ocurren 2 veces. Esta distribución de datos es bimodal . El rango medio (punto medio de un intervalo) El rango medio es el punto de la mitad o punto medio de una serie de observaciones. Para muchos tipos de datos, se calcula sumando la observación más pequeña con la más grande dividido por dos; para datos de edad, se suma uno al numerador. El rango medio se calcula usualmente como el paso intermedio en la determinación de otras medidas. Las fórmulas para calcular el rango medio de una serie de observaciones son: Rango medio ( para la mayoría de los tipos de datos)= (X1 + Xn) 2 Rango medio (datos de edad)= (X1 + Xn + 1) 2 Ejemplo En éste ejemplo se demuestra cómo se halla el rango medio de éstas 5 variables (no se trata de datos de edad) A B C D E 0 0 0 0 0 0 4 1 1 6 1 4 2 1 7 1 4 3 2 7 1 5 4 2 7 5 5 5 2 8 9 5 6 3 8 9 6 7 3 8 9 6 8 3 9 10 6 9 4 9 10 10 10 10 10 1.- Organice las observaciones en orden ascendente (ya está hecho). 2.- Identifique el valor más pequeño y el más grande: 0 y 10 para todas las distribuciones. 3.- Calcule el rango medio: (0+10)/2= 10/2= 5 para todas las distribuciones. La edad difiere de la mayoría de otras variables porque no puede ser redondeada.. Alguien que tiene 17 años y 360 días de edad no puede pasar por alguien de 18 años de edad sino cinco días después. Considere el siguiente ejemplo: En una escuela de preescolares, los niños fueron asignados a los salones con base en la edad que tenían a septiembre 1. En el salón 2 estaban los niños que tenían por lo menos 2 años pero no alcanzaban a tener 3 años el 1 de septiembre. (todos los niños en el salón 2 tenían 2 años el primero de septiembre). Cual es el rango medio de las edades de los niños en el salón 2 el primero de septiembre? 25 Para propósitos descriptivos, se podría decir que la respuesta apropiada es que el rango medio es 2. Sin embargo, como se dijo, el rango medio es calculado como un paso intermedio para obtener otras medidas. Entonces, es necesario ser mas precisos; considere que algunos de los niños pueden tener 2 años justos, otros pueden estar cerca de los 3 años, ignorando la tendencia estacional de los nacimientos y asumiendo que los cumpleaños pueden estar distribuidos uniformemente a lo largo del año; los niños más jóvenes pueden cumplir el 1 de septiembre y tener exactamente 2.0 años, el niño mayor puede cumplir años en septiembre y tener 2.97 años. Para propósitos estadísticos la media y el rango medio de éste grupo teórico es de 2.5 años, así: Rango medio (para datos de edad) = (2+2+1)/2 = 2.5 Otras medias o promedios matemáticos importantes: La media geométrica G Como se ha visto la media es una excelente medida de resumen para los datos que están cerca de una distribución normal; algunas veces, se recogen datos que no están normalmente distribuidos pero que tienen un patrón exponencial (1,2,4,8,16 etc) o patrón logarítmico (1/2, 1/4, 1/8, 1/16 etc). Por ejemplo para determinar cuantos anticuerpos están presentes en el suero, se diluyen secuencialmente las muestras al 50% hasta que no se pueden detectar más anticuerpos. La primera muestra que tiene el suero sin diluir tendrá el mayor título de anticuerpos, luego se diluye al 50%, y queda con la mitad de los anticuerpos que había en la muestra original. Y así, sí se continúa así sí se continua diluyendo al 50%, la cantidad de anticuerpos irá disminuyendo a 1/4, 1/8, 1/16 y así sucesivamente. Algunas veces se puede decir que estas diluciones están medidas en una escala logarítmica; una medida de resumen para estos datos es la media geométrica. La media geométrica es un promedio de la serie de datos medidos en escala logarítmica. Considere que el valor de 100 y la base de 10 es el poder en que se basa éste incremento. ¿Cual será la potencia necesaria para elevar en base 10 para obtener un valor de 100? 10 veces 10 o 102 igual a 100, el logaritmo de 100 en base 10 es = 2. De igual modo, el logaritmo de 16 en base 2 es igual a 4 o 24= 2*2*2*2=16 Un antilogaritmo eleva la base a la potencia (logaritmo). Por ejemplo el antilog de 2 en base 10 es 102 o 100. El logaritmo de 4 en base 2 es 24 o 16. La mayoría de los títulos son reportados como múltiplos de 2 (2,4,6,8 etc.) entonces, es más fácil usar base 2. 26 La media geométrica se calcula con base en la raíz enésima del producto de n observaciones. La media geométrica es usada cuando los logaritmos de las observaciones se distribuyen normalmente más que las observaciones por si mismas. Esta situación es típica cuando se hacen diluciones, como en la detección de anticuerpos en el suero y muestreos ambientales. Fórmula para calcular la media geométrica de datos individuales 1. Media geométrica = Xgeo = G n x1.x2 ....xn ( para datos no agrupados ,ni repetidos) 2. Media geométrica = Xgeo = repetidos) G n x1f1 .x2f 2 ...xnf n (para datos agrupados y En la práctica la media geométrica se calcula así: Media geométrica = Xgeo = antilog ( 1 Log xi ) n Ejemplo En este ejemplo se demuestra cómo se calcula la media geométrica en la siguiente serie de datos: 10, 10, 100, 100, 100, 100, 10.000, 100.000, 100.000, 1.000.000 Estos valores son todos múltiplos de 10, puede ser adecuado para usar logaritmos en base 10. Recuerde que: 100 = 1 (cualquier número elevado a la potencia 0=1) 101 = 10 102 = 100 103 = 1,000 104 = 10,000 105 = 100,000 106 = 1,000,000 107 = 10,000,000 y así sucesivamente. 27 1.- tome el logaritmo (en éste caso en base 10 ) para cada valor: log10 (Xi)= 1,1,2,2,2,2,4,5,5,6. 2.calcule el promedio de los valores de log sumando y dividiendo número de observaciones (en este caso 10) media de log10 (Xi) =(1+1+2+2+2+2+4+5+5+6)/10= 30/10=3 por el 3.- tome el antilogaritmo de la media de los valores de logaritmo, que da la media geométrica. antilog10 (3) = 103 = 1,000 La media geométrica de la serie de datos es 1,000. Ejemplo 2 Usando los títulos dados calcule la media geométrica de los títulos de anticuerpos contra el virus sincitial respiratorio en 7 pacientes Nro 1 2 3 4 5 6 7 dilución 1:256 1:512 1:4 1:2 1:16 1:32 1:64 título 256 512 4 2 16 32 64 Como estos títulos son múltiplos de 2, se usa la fórmula de log. con base 2 21 = 2 22 = 4 23 = 8 24 = 16 25 = 32 26 = 64 27 = 128 28 = 256 29 = 512 Usando la segunda fórmula, obtendremos xgeo= antilog2 (1/7 x[log2256 + log2512 + log24 + log22 + log216 + log232 + log264]) = antilog2 (1/7 x[8+9+2+1+4+5+6]) = antilog2 (1/7 x35) 28 = antilog2 (5)= 32 El título medio geométricamente es = 32, y la dilución media geométrica es de 1 : 32. Media Ponderada Es una medida de centralización que permite calcular la media de acuerdo al peso o ponderación de cada unidad especifica, multiplicando cada observación por el peso o porcentaje, entre la suma total de las ponderaciones xi pi x1 p1 x2 p2 ....xn pn Xp p1 p2 ... pn pi Ejemplo: Calcular la media ponderada o promedio de un estudiante que obtuvo las calificaciones siguientes en el segundo semestre de Educación integral: (4%) Asignatura Calificación definitiva(xi) Inglés Metodología Matemática II Lenguaje y comunicación II 12 13 19 16 Sumatoria Ponderación Unidades de credito(Pi) 03 04 06 04 Xi.Pi 36 52 144 64 17 Luego su promedio seria: X p 296 x p p i i i 296 17.41 17 Media Armónica H Se representa con la letra H , es igual al cociente entre el número total de datos y la sumatoria de los inversos de cada observación. H H n 1 1 1 ..... x1 x2 xn n f f1 f 2 ..... n x1 x2 xn (Para datos no agrupados, ni repetidos) (Para datos agrupados y repetidos) 29 Ejemplo 1: Calcular la media armónica, la media aritmética y la media geométrica de siguiente conjunto de datos: 5,6,10,11,12 5 5 1100 H 7.80 1 1 1 1 1 141 141 5 6 10 11 12 220 5 6 10 11 12 44 8.80 5 5 X G 5 5.6.10.11.12 8.30 log G log 5 5.6.10.11.12 1 log G log(5.6.10.11.12) 5 1 log G log 5 log 6 log10 log11 log12 5 log G 0.9195 100.9195 8.30 G Ejemplo 2: Ahora calcule la media aritmética, la moda y la mediana para datos agrupados en clases en los datos siguientes de fuentes hipotéticas Las estaturas (en metros) de los niños y niñas del 1º grado sección A en la Escuela Básica “Carlos Soublette” durante l año 2008-2009 son : Li - Ls a, b Xi- Fi- Fi Marca de clases Frec Absoluta Frec Acumulada 0.95-1.00 1.00-1.05 1.05-1.10 1.10-1.15 1.15-1.20 1.20-1.25 1.25-1.30 0.975 1.025 1.075 1.125 1.175 1.225 1.275 8 10 6 5 10 4 3 46 Xi.fi 8 18 24 29 39 43 46 li ls pto medio o marca 2 de clases Xi 7.8 10.25 6.45 5.625 11.75 4.9 3.825 50.6 n La media aritmética es X X i 1 n f i i 50.6 1.1 46 30 1 La distribución es bimodal Mo Li Ac 1 2 1 (10 8) 2 Mo1 Li .0, 05 1.00 0, 05 Ac 1.00 24 (10 8) (10 6) 1 2 Mo1 1.00 0.016 1.016 1 (10 5) 5 Mo2 Li .0, 05 1.15 0, 05 Ac 1.15 56 (10 5) (10 4) 1 2 Mo2 1.15 0.0227 1.5227 La mediana como n/2; 46/2 = 23 23 18 Me 1.05 0.05 1.0916 6 III. Medidas de dispersión Cuando se observa una gráfica de una distribución de frecuencias, normalmente se pueden ver dos hallazgos primarios: 1.- La gráfica tiene un pico, habitualmente cerca del centro. 2.- Se dispersa hacia uno y otro lado del pico. Así como usamos una medida de tendencia central para describir dónde está el pico, también se usa una medida de dispersión para describir cuánto se dispersa ésta distribución. Se pueden usar varias medidas de dispersión. Rango, valor mínimo y valor máximo El rango de una serie de datos es la diferencia entre el valor mayor y el menor. En el argot epidemiológico el rango se describe como un solo número: la diferencia entre el menor y el mayor valor. Ejemplo: En éste ejemplo se demuestra cómo se encuentran los valores mínimo y máximo y el rango de los siguientes datos: 29,31, 24, 29, 30, 25. 1.- Organice los datos de menor a mayor: 24, 25, 29, 29, 29, 30, 31; 31 2.- Identifique los valores mínimo y máximo: Mínimo =24 y máximo=31 3.- Calcule el rango: Rango = máximo - mínimo =31-24=7; entonces el rango es igual a 7. 32 Ejemplo Variables Persona # A B C D E 1 2 3 4 5 6 7 8 9 10 11 Suma 0 0 1 1 1 5 9 9 9 10 10 55 0 4 4 4 5 5 5 6 6 6 10 55 0 1 2 3 4 5 6 7 8 9 10 55 0 1 1 2 2 2 3 3 3 4 10 31 0 6 7 7 7 8 8 8 9 9 10 79 Media 5 5 5 2.8 7.2 Mediana 5 5 5 2 8 6, 4 y 5 trimodal 5 No hay 5 2y3 Bimodal 5 7y8 Rango medio 9y1 Bimodal 5 Valor Mínimo 0 0 0 0 0 Valor Máximo 10 10 10 10 10 Moda 5 1.- Organice los datos (ya realizado). 2.- Identifique los valores mínimos y máximos y calcule la diferencia: máximo valor de cada variable = 10 mínimo valor de cada variable = 0 Entonces, el rango de cada variable es 10-0=10. El valor de las variables A, B, y C son obviamente diferentes, pero la media, mediana, los valores máximo y mínimo y el rango no permiten ver diferencias. Para las variables D y E el rango medio, los valores máximo y mínimo y el rango tampoco sirven para mostrar diferencias en las variables. 33 Percentiles, cuartiles y rangos intercuartílicos Consideremos el valor máximo de una distribución de otra manera: como el valor que tiene el 100% de las observaciones por debajo de él y ahora denominémoslo el percentil 100. Desde la misma perspectiva, la mediana, es el valor que tiene el 50% de las observaciones por debajo de el o también llamado el percentil 50. El percentil "n-ésimo" es el valor que tiene el "n%" de las observaciones por debajo. Los percentiles más comunes son los percentiles 25, 50 y 75. El percentil 25 demarca el primer cuartil, el percentil 50 el segundo cuartil, el percentil 75, el tercer cuartil y el percentil 100, el cuarto cuartil. El rango intercuartílico representa la porción central de una distribución, y se calcula como la diferencia entre el tercer cuartil y el primero. El rango incluye aproximadamente la mitad de las observaciones en la serie, dejando aproximadamente 25% de las observaciones por debajo o por encima. Como calcular el rango intercuartílico de los datos individuales. Para calcular el rango intercuartílico, primero hay que encontrar el tercer y el primer cuartil. Como cuando se calcula la mediana, primero hay que poner las observaciones en orden y luego determinar la posición del cuartil. El valor del cuartil es el valor de la observación en esta posición o, si el cuartil se encuentra entre dos observaciones, es el valor entre las observaciones. 1. Organice las observaciones en orden ascendente. 2. Encuentre la posición del primer y el tercer cuartil usando las siguientes fórmulas: Posición del primer cuartil Q1 Posición del tercer cuartil Q3 n 1 4 3.(n 1) 3Q1 4 3. Identifique el valor del primer cuartil y el tercer cuartil. si el cuartil se encuentra en una observación (es decir, su posición es sobre un número entero), el valor del cuartil es el valor de esta observación. Por ejemplo, si la posición del cuartil es 20, el valor es el de la observación número 20. si el cuartil se encuentra entre dos observaciones, el valor de éste es el valor de la observación menor, más la fracción de las diferencias entre 34 las dos observaciones; Por ejemplo, si la posición de la observación es 20 1/4, se encuentra entre la observación 20 y la observación 21, y su valor es el valor de la observación 20, más 1/4 la diferencia entre el valor de las observaciones 20 y 21. 4. Calcule el rango intercuartílico entre Q3 y Q1. La mitad de las observaciones en una distribución de frecuencia yace en el rango intercuartil Mediana Valor mas Percentil 25 Percentil 50 Percentil 75 Valor mas Pequeño Grande Intervalo Intercuartíilico=Q3-Q1 Ejemplo. 35 1. Organice las observaciones en orden ascendente. Dados estos datos: 13, 7, 9, 15, 11, 5, 8, 4, hay que organizarlos así: 4, 5, 7, 8, 9, 11, 13, 15. 2. Encuentre la posición del primer y el tercer cuartil. Dado que hay 8 observaciones, n=8. Posición del primer cuartil (Q1) = (n + 1) / 4 = (8 + 1) / 4 = 2.25 Posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1 3(8 + 1) / 4 = 6.75 Así, se encuentra Q1 (1/4) de las observaciones entre 2 y 3 y Q3 (3/4) entre las observaciones entre 6 y 7. 3. Identifique el valor del primer y el tercer cuartil. Valor de Q1: La posición de Q1 es 2 1/4; así, el valor de Q1 es el valor de la observación 2 más 1/4 de la diferencia entre los valores de las observaciones 2 y 3. Valor de la observación 3 (ver paso 1) : 7 Valor de la observación 2: 5 Q1 = 5 + 1/4( 7-5 ) = 5 + 1/4(2) = 5 + 0,5 = 5.5 Valor de Q3: La posición de Q1 es 6 3/4; así, el valor de Q3 es el valor de la observación 6 más 3/4 de la diferencia entre los valores de las observaciones 6 y 7. Valor de la observación 7 (ver paso 1) : 13 Valor de la observación 6: 11 Q3 = 11 + 3/4( 13-11 ) = 11 + 3/4 (2) = 11 + 1.5 = 12.5 4. Calcule el rango intercuartílico como Q3 menos Q1. Q3 = 12,5 (ver paso 3) Q1 = 5,5 Rango intercuartílico = 12,5 - 5,5 = 7 Ejemplo: En seguida se demuestra cómo se encuentra el primer, segundo y tercer cuartil y el rango intercuartílico, de los períodos de incubación de la hepatitis A : 29, 31, 24, 29, 30, 25 1. Organice las observaciones en orden ascendente. 36 24, 25, 29, 29, 30, 31 2. Encuentre la posición del primer y el tercer cuartil. Posición del primer cuartil (Q1) = (n + 1) / 4 = (6 + 1) / 4 = 1,75 Posición del tercer cuartil (Q3) = 3(n + 1) / 4 = 3 x Q1 =3(6 + 1) / 4 = 5,25 Así, se encuentra Q1 3/4 entre las observaciones 1 y 2 y Q3 1/4 entre las observaciones 5 y 6. 3. Identifique el valor del primer y el tercer cuartil. Valor de Q1: La posición de Q1 es 1 3/4; así, el valor de Q1 es el valor de la observación 1 más 3/4 de la diferencia entre los valores de las observaciones 1 y 2. Q1 = 24 + 3/4( 25-24 ) = 24 + 3/4 (1) = 24,75 Valor de Q3: La posición de Q3 es 5 1/4; así, el valor de Q1 es el valor de la observación 5 más 1/4 de la diferencia entre los valores de las observaciones 5 y 6. Q3 = 30 + 1/4( 31-30 ) = 30 + 1/4 (1) = 30 + 0,25 = 30,25 Mediana = (n + 1) / 2 = 7/2 = 3,5. Así la mediana es (29 + 29) / 2 = 29 4. Rango intercuartílico = 30,25 - 24,75 = 5,5 días Fíjese que la distancia entre la mediana y Q1 es 29 - 24,75 = 4,25. En contraste, la distancia entre la mediana y Q3 es solo 30,25 - 29 = 1,25. Esto indica que los datos se orientan hacía los números más pequeños (orientados hacia la izquierda). Este no es el único método para calcular los cuartiles. Otros métodos pueden producir resultados un poco diferentes. En general, se usan los cuartiles y el rango intercuartílico para describir la variabilidad cuando se está usando la mediana como la medida de tendencia central. Cuando se está usando la media aritmética, hay que usar la desviación típica. El resumen de los datos de una distribución consiste en : 1) la observación mínima 2) el primer cuartil 37 3) la mediana 4) el tercer cuartil 5) la observación máxima. En conjunto, estos valores forman una buena descripción del centro, la forma y la extensión de una distribución. Se utilizan estos datos para dibujar un diagrama de cajas y bigotes. Varianza y desviación típica (o estándar) Si se resta la media aritmética de cada observación, la suma de las diferencias es cero. Este concepto de restar la media de cada observación es la base para dos medidas de dispersión, la varianza y la desviación típica o estándar. Para estas medidas, hay que elevar al cuadrado las diferencias para eliminar los números negativos. Después, se suma el cuadrado de las diferencias y se divide por n-1 para encontrar la "media" de las diferencias al cuadrado. Esta "media" es la varianza. Para convertir la varianza a las unidades originales, hay que obtener la raíz cuadrada. Se denomina desviación típica.o estándar. a la raíz cuadrada de la varianza. Enseguida se realizarán los cálculos con el ejemplo anterior. Valor menos la media 24-28 25-28 29-28 29-28 30-28 31-28 168-168.0=0 Diferencia -4 -3 +1.0 +1.0 +2.0 +3.0 -7+7=0 Diferencias al cuadrado 16 9 1 1 4 9 40 suma de las diferencias cuadráticas 40 8 n 1 5 Desvío estándar= 8 2.83 Varianza= La varianza y la desviación estándar son medidas de la desviación o dispersión de las observaciones alrededor de la media de la distribución. La varianza es la media de las diferencias cuadradas de las observaciones alrededor de la media. Se representa como "S2" en las fórmulas. La desviación estándar es la raíz cuadrada de la varianza; se representa con "s". Las siguientes fórmulas definen estas medidas: Varianza s 2 (x x ) i n 1 Que es lo mismo ha: 2 desviación estándard= s = (x x ) 2 i n 1 38 n xi ( xi )2 2 Varianza s desviación estándard = s = s2 n(n 1) Compare los dos términos, xi2 y ((xi)2 . El primero indica que hay que elevar al cuadrado cada observación y sacar la suma de los valores cuadrados. El segundo indica que hay que sumar las observaciones, y después elevar al cuadrado la suma. 2 Ejemplo Se utilizarán las fórmulas definidas para calcular la varianza (S2) para la variable C: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. Varianza s 2 (x x) i n 1 2 desviación estándard = Columna 1 xi Columna 2 xi x 0 1 2 3 4 5 6 7 8 9 10 55 0-5.0=-5 1-5.0=-4 2-5.0=-3 3-5.0=-2 4-5.0=-1 5-5.0=0 6-5.0=1 7-5.0=2 8-5.0=3 9-5.0=4 10-5.0=5 0 Columna 3 ( xi x ) 2 25 16 9 4 1 0 1 4 9 16 25 110 (x x) 2 i n 1 Columna 4 xi 2 0 1 4 9 16 25 6 49 64 81 100 385 1. Calcule la media (primera columna) x x i n 55 50 . 11 2. Reste la media de cada observación para encontrar las desviaciones de la media (columna 2) 3. Eleve al cuadrado las desviaciones de la media (columna 3) ( xi x ) 2 4. Sume las desviaciones elevados al cuadrado (columna 3) (xi -x)2 = 110 39 5. Divida la suma de las desviaciones elevadas al cuadrado por n-1 para encontrar la varianza: ( xi x )2 110 110 110. n 1 11 1 10 6. Saque la raíz cuadrada de la varianza para encontrar la desviación estándar desviación estándard = s = s2 11 33 . Ejemplo Se utilizará la fórmula alternativa para calcular la varianza y la desviación estándar de los datos del ejemplo anterior. Fórmula n xi ( xi ) 2 Varianza s n(n 1) 2 2 xi 0 1 2 3 4 5 6 7 8 9 10 55 desviación estándard = s = s2 xi 2 0 1 4 9 16 25 6 49 64 81 100 385 1. Para calcular el término xi2 en la fórmula, hay que elevar al cuadrado cada observación y encontrar la suma de los cuadrados (ver la segunda columna, xi2, en el cuadro de arriba). xi2 = 385 2. Para calcular el término (xi)2 en la fórmula, hay que encontrar la suma de las observaciones y elevarlas al cuadrado (ver la primera columna de el cuadro de arriba). (xi2)=552 = 3025 3. Calcule el numerador: 40 n xi ( xi ) 2 = (11) (385) - 3025 = 4235 - 3025 = 1210 2 4. Para calcular el denominador, hay que restar 1 de n y multiplicar el resultado por n: n(n - 1) = 11 (11-1) = 11 x 10 = 110 5. Para completar el cálculo de la varianza hay que dividir el denominador entre el numerador: S2 = 1210 / 110 = 11.0 6. Para completar el cálculo de la desviación estándar, hay que sacar la raíz cuadrada a la varianza: desviación estándard = s = s2 11 33 . Para ilustrar las relaciones entre la desviación estándar, la media y la curva normal, hay que considerar los datos con una distribución normal, como en la figura 3,9. Se encuentra el 68,3% del área por debajo de la curva normal dentro la media y +/- una desviación estándar, es decir, entre una desviación por debajo de la media y una por encima. Además, se encuentra el 95,5% del área entre la media y +/- dos desviaciones estándares, y el 99,7% entre la media y +/- 3 desviaciones estándares. Se encuentra el 95% del área entre la media y +/- 1.96 desviaciones estándares. Figura 3.9 Áreas bajo la curva normal que yacen entre 1, 2 y 3 desviaciones estándar a cada lado de la media 68.3% de los datos 95.5% de los datos 99.7% de los datos -3 DE -2DE -1 DE Media +1DE +2DE +3DE 41 42 Referencias 1. Center for Disease Control. Health status of Vietnam veterans. Volume 3: Medical Examination. 1989. 2. Matte TD, Figuera JP, Ostrowski S, et al. Lead poisoning among household members exposed to lead-acid battery repair shops in Kingston, Jamaica. Int J Epidemiol 1989; 18: 874-881. 3. National Center for Health Statistics. Advance Report of Final Mortality Statistics, 1987. Monthly Vital Statistics Report, Vol 38 no. 5 Supplement. Hyattsville, MD, PHS 1989. p.21. 43