Los valores incluidos en un grupo de datos usualmente varían en magnitud; algunos de ellos son pequeños y otros son grandes. Un promedio es un valor simple, el cual es considerado como el valor más representativo o típico para un grupo de números. Obviamente, el valor más representativo para un grupo de números normalmente no es el valor más pequeño ni el más grande, sino es el número cuyo valor está en algún punto intermedio del grupo. Así un promedio es frecuentemente referido con una media de tendencia central. El promedio se emplea con frecuencia como mecanismo para resumir un conjunto de cantidades o números, sobre todo si es grande, a fin de descubrir los datos estadísticos. Como ejemplos cabe citar las edades promedio de los estudiantes de una universidad, el salario semanal promedio de los trabajadores manufactureros, el ingreso familiar promedio de una nación, etc. Los promedios son también frecuentemente usados para comparar un grupo de datos con otro. Por ejemplo, el promedio de años de educación de los empleados de una compañía, comparados con el promedio de otra compañía; el promedio de unidades producidas en una planta, comparado con el promedio producido en otra, y el promedio de kilómetros recorridos por un grupo de vendedores, comparado con el promedio de kilómetros recorridos por otro grupo. Los promedio más comunes conocidos en estadística son 1).- La media aritmética, 2).- la mediana, 3).- la moda, 4).- la media geométrica y 5).- la media armónica. Cada promedio tiene sus características particulares. La determinación de cuál de los diferentes tipos de promedios deberá ser usado bajo diferentes circunstancias depende grandemente de las características de los promedios. En general, los tres primeros promedios son usados más frecuentemente los dos últimos son usados solamente en casos muy especiales. Hay más detalles involucrados en el cálculo de promedios para datos agrupados que para datos no agrupados, aunque los métodos son básicamente los mismos para los dos tipos de datos. Los números incluidos en los datos no agrupados, son valores simples y no están clasificados en grupos. La agrupación de datos, también llamada Distribución de frecuencia, son datos organizados y están clasificados cuantitativamente. DISTRIBUCION DE FRECUENCIA (DATOS AGRUPADOS) Generalmente hablando, cuando un grupo de datos recopilados consiste de solamente unos pocos ítems, puede no haber una necesidad para organizarlos. Los datos recopilados, los cuales no han sido organizados numéricamente, son frecuentemente llamados datos brutos o crudos. Sin embargo, cuando un grupo grande de ítems es recopilado, los valores de los mismos deberán ser puestos en orden para facilitar el análisis estadístico. Los valores pueden ser arreglados, primero de acuerdo al orden de magnitud ascendente descendente. Los datos ordenados de esta manera constituyen un arreglo. Así los valores 4, 6, 2, 9, 8, 4, 8 y 8 son datos brutos, los cuales pueden ser ordenados como un arreglo 2, 4, 4, 6, 8, 8, 8, 8, 9. Hay valores repetidos en el arreglo. Cuando los valores repetidos son indicados, el arreglo es entonces llamado un arreglo de frecuencia y el número indica las veces que un valor está repetido se llama la frecuencia. El arreglo de frecuencias puede ser construido mediante el uso de marcas. ILUSTRACION DE UN ARREGLO DE FRECUENCIAS Valor 2 4 6 8 9 Total Marca / // / /// / Frecuencia 1 2 1 3 1 8 Valores Más aún, cuando los valores son agrupados en varias clases con base cuantitativa y el número de los valores dentro de cada clase es indicado, puede obtenerse una presentación tabular más compacta de los datos. La tabla que muestra datos agrupados cuantitativamente se llama una Distribución de frecuencias. El arreglo de una distribución de frecuencia tiene un gran efecto en el cálculo de los distintos promedios, lo mismo que en otras fases del análisis estadístico. Sin embargo, no hay reglas precisas que puedan ser usadas para construir una tabla perfecta de distribución de frecuencias, únicamente hay que tener cuidado en construir tales tablas a partir de los datos brutos ILUSTRACION DE UNA DISTRIBUCION DE FRECUENCIAS Intervalo de clases 1-3 4-6 7-9 Total Frecuencia 1 3 4 Valores 8 Número de clases Límites de clase y punto medio o centro de clase Los límites de clase superior e inferior establecidos en una distribución de frecuencia, indica las cotas o fronteras de cada clase de la distribución. Sin embargo, en muchos casos, los límites de clase establecidos no son los límites de clase verdaderos. Hay blancos entre las clases. En tales casos, el Punto medio de cada blanco es considerado como el límite verdadero o real entre las dos clases que forman el blanco. El punto medio o centro de cada clase es empelado usualmente para representar cada valor original, agrupado en la clase para propósitos de análisis matemáticos adicional. El centro de cada clase puede calcularse de cualquiera de los límites de clase, ya sea los establecidos o los reales Centro de clase Límite de clases inferior establecido Límite de clases superior Establecido 2 Ejemplo: Encontrar los límites verdaderos y el valor del punto medio para cada una de las clases 1 - 3, 4 - 6, 7 - 9. Límites de clase y variables. Una variable es un conjunto de valores y es usualmente representada por un símbolo, tal como la variable X consiste de 1, 2, 5, 7, 8, y así sucesivamente. Si un símbolo que representa un número tiene valor fijo, el símbolo se le llama constante, tal como a si a = 4. Hay dos tipos de variables: variables continuas y variables discretas. Una variable continua puede teóricamente, tomar cualquier valor entre dos valores dados. Por ejemplo, hay un número ilimitado de valores entre los números 70 y 71, tales como 70.01, 70.06, 70.80047. Los datos que `peden ser descritos por una variable continua son llamados datos continuos, tales como la medida de la estatura de una persona, la cual puede ser de1.50 mts, 1.52 mts o 1.59 mts. Si la variable no puede tomar cualquier valor entre dos valores dados, se llama una variable discreta. Los datos representados por una variable discreta son llamados datos discretos, tales como el número de estudiantes en una clase, el cual puede tomar cualquiera de los valores 0, 1, 2, 3, 4 . . . ., pero no pueden ser 1.2, 2.6, 3.1, etc. En general, los valores que representan medidas son datos continuos, mientras que conteos o enunciados son datos discretos. Tamaño de los intervalos de clase En General hay tres tipos de intervalos de clase de acuerdo a cuerdo con los tamaños de las clases en una distribución de frecuencia: 1. - Clases de igual tamaño, 2.- Clases de desigual tamaño, 3.- clases abiertas. El tamaño del intervalo de clase es la diferencia entre los límites de clase verdadera superior e inferior, y es también referido como la amplitud de clase o el tamaño de los intervalos de clase en una distribución de frecuencia, depende del número de clases, los tipos de información deseada y el grado de variación de los valores originales. Clases de igual tamaño. Este tipo de designación de clases es usualmente preferido y ha sido usado en las ilustraciones. Cuando todas las clases son del mismo tamaño, los cálculos concernientes a la distribución de frecuencia son grandemente simplificados. Por ejemplo, el número de clases en una distribución de frecuencia puede ser calculado dividiendo el recorrido de los datos brutos (la diferencia entre el valor mayor y el menor) por el tamaño del intervalo de clase. Clases de desigual tamaño. Los intervalos de clases desiguales no son deseables en la mayoría de los casos, pero son algunas veces usados para servir propósitos particulares, tales como cubrir valores que varían en un amplio recorrido. Cuando los intervalos de clases desiguales deben ser usados, los intervalos de clases deberán ser incrementados de una manera ordenada si es posible. Clases abiertas Una clase abierta tiene uno de sus dos límites de clases no establecido numéricamente, tal como la primera clase "menos de 500" y la última clase "25,000 y más, este tipo de clases deberá de ser evitado lo más posible, puesto que no podemos decir exactamente cual es el punto medio u otro valor representativo de la clase para los propósitos de cálculo. La media aritmética, o simplemente la media, es el tipo más comúnmente usado entre los cinco tipos de promedios. Los métodos para calcular la media para datos no agrupados y para datos agrupados. Datos no agrupados Método básico La media para datos no agrupados es el cociente de la suma de los valores divididos por el número de valores en el conjunto de datos dados. Media Suma de valores Número de valores o simbólicamente, X X n X = = = = X n Representa el conjunto de valores, o la variable X. Representa el número de valores en el conjunto. Es la letra griega sigma y representa "la suma de" o "la sumatoria de". Representa la media de la variable X, llamada " X barra". La barra, es la parte superior de la letra o letras, usualmente representada "la media aritmética de" Ejemplo: Los promedios de las calificaciones de 10 alumnos de cierta clase de una escuela son: 8, 9, 5, 8, 10, 7, 6, 7, 9, 6., además se desea conocer la media de las calificaciones: Estudiante Promedio de calificaciones Variable x A 8 B 9 C 5 D 8 E 10 F 7 G 6 H 7 I 9 J 6 Total 75 Utilizando la fórmula: x 8 9 5 8 10 7 6 7 9 6 75 n 10 est udiantes La media es: x 75 10 7.5 Recomendación: Hacer más ejercicios Encontrar los promedios de las estaturas de los 15 empleado de una fabrica y son: 1.4, 1.3, 1.7, 1.6, 1.4, 1.30, 1.25, 1,60, 1.55, 1.65, 1.60, 1.70, 1.72, 1.69, 1.60mts. Encontrar el promedio de Los Kilómetros recorridos de 8 taxis durante un día normal de trabajo y son 75, 89, 95, 146, 120, 110, 140, 155. Método abreviado. La suma algebraica de las desviaciones es igual a cero. En otras palabras, la media calculada está en el punto de equilibrio; es decir en el punto, tal que la suma de las desviaciones positivas es igual a la suma de las desviaciones negativas. El método abreviado nos permitirá ahorrar una considerable cantidad de tiempo cuando un grupo de datos está involucrado en el cálculo de la media. Específicamente en una distribución de frecuencia. Ilustración de que la suma algebraica de las desviaciones con respecto a la verdadera media aritmética es cero. Valor X Desviación con respecto A la media 6.6 1 -5.6 4 -2.6 10 +3.4 8 +1.4 10 +3.4 = x x -8.2 = +8.2 Total cero Entonces: X A X A (x A ) n v n En general: A = La media supuesta o el valor seleccionado arbitrariamente v = La desviación de cada valor respecto a la media supuesta X-A En el ejemplo de las calificaciones de los estudiantes, cada uno de los 10 estudiantes está incluido una sola vez en el cálculo de la media. El número de calificaciones obtenida por cada estudiante durante un período, no es considerado. Cuando cada valor es considerado igualmente importante, la media es llamada media no ponderada. Cuando a cada uno de los valores en un conjunto de datos le es asignada una ponderación de acuerdo con la importancia relativa en el grupo, la media calculada es llamada media ponderada. La ponderada es obtenida como sigue: Primero, multiplicar cada valor por la ponderación asignada al valor correspondiente; Segundo, sumar estos productos y; Tercero, dividir la suma de los productos por la suma de las ponderaciones. Sea w = La ponderación asignada a cada valor de la variable X; entonces; (wX ) w X Ejemplo: Los kilómetros recorridos durante cada viaje y el número de viajes hechos por 5 estudiantes al venir de su hogar hasta la universidad en una semana, están dados en la 2ª y 3ª columna de la siguiente tabla CALCULOS PARA EL EJEMPLO 3 wx 1 2 Estudiante Kilómetros recorridos A 1 6 6 B 4 5 20 Número de viajes 4 Total de kilómetros recorridos C 10 4 40 D 8 2 16 E 10 3 30 20 112 Total Nótese que el divisor en la división es 20 la suma de las ponderaciones, 5 el número de estudiantes. X X (wX ) w 112 20 5.6 Kilómetros En el cálculo de la media aritmética para datos agrupados, el centro o punto medio de la clase es usado para representar el valor de cada elemento incluido en la clase. La media calculada de una distribución de frecuencia puede diferir de la media calculada de los datos originales, puesto que cada uno de los valores reales no es en general el mismo valor que el del centro de clase. Sin embargo, la diferencia es usualmente despreciable. El método de cálculo de la media para datos agrupados es necesario en muchos casos. El trabajo de calcular la media de una distribución de frecuencia es mucho más simple que para datos no agrupados de un gran número de valores. Además, los datos originales, pueden no estar dados en la tabla de la distribución de frecuencia es obtenida de una fuente publicada. Método básico: La media para datos agrupados es básicamente obtenida como sigue: Primero, multiplicar cada centro de la clase por la frecuencia de la clase; Segundo, sumar estos productos; Tercero, dividir la suma de los productos por la suma de las frecuencias. (fX ) n X Donde: X = el centro de las clases individuales f = La frecuencia de las clases individuales n = la suma de las frecuencias, o = f Ejemplo: Los kilómetros recorridos por 20 estudiantes al venir a la la universidad desde sus hogares son los siguientes: 0.8 3.4 5.8 7.3 1.2 3.7 6.1 7.4 2.6 4.0 6.2 7.6 2.8 4.5 6.5 7.8 3.3 5.3 7.1 9.2 Total 102.6 Kilómetros CALCULOS PARA EL EJEMPLO METODO BASICO Kilómetros Intervalo de clase Km. Promedio Punto medio. X Número de estudiantes Frecuencia de clases. f Total Km. Recorridos. fX 0 y menos de 2 1 2 2 2 y menos de 4 3 5 15 4 y menos de 6 5 4 20 6 y menos de 8 7 8 56 8 hasta 9 1 Total 10 20 9 102 (fX ) n X 102 20 X 5.1Km . v Este método es fácil de aplicar cuando las clases son del mismo tamaño. Cuando las clases no son del mismo tamaño, el procedimiento en el método básico es más simple. El método usado en el procedimiento del método abreviado para calcular la media de datos no agrupados puede también ser aplicado al método abreviado para datos agrupados: La suma algebraica de las desviaciones de los valores individuales con respecto a su media exacta es cero, pero con respecto a una media supuesta no es cero. Las desviaciones con respecto a la media supuesta pueden ser expresadas en unidades originales de los datos o intervalos de clases en una distribución de frecuencia. Cuando las desviaciones son expresadas en unidades originales, el procedimiento del método abreviado para calcular la media de datos agrupados es: 1.- Seleccionar una media supuesta A. La respuesta no es afectada por el valor seleccionado como la media supuesta. Cualquier punto, incluyendo cero, puede ser usado como la media supuesta. Sin embargo, a fin de simplificar los cálculos, el punto medio de una de las clases localizadas centralmente en los datos dados debería ser seleccionado como media supuesta. 2.- Encontrar las desviaciones de cada marca de clase con respecto a la media supuesta en unidades originales de los datos, tal como pesos, kilómetros, metros, monedas, etc. v = la desviación en unidades originales X = el centro o marca de clase v=X-A 3.- Multiplicar cada desviación v por la frecuencia en la clase f para obtener la desviación total de la clase, o fv. 4.- Sumar estos productos para obtener la desviación total de todos los elementos incluidos en los datos, o fv. La suma de los productos es usualmente diferente de cero. Si es cero, la media supuesta debe ser también la media exacta. 5.- Dividir la suma de los productos (fv). Por la suma de las frecuencias, ( f o n), para obtener el factor de corrección. X (fv ) f o (fv ) n 6.Agregar el factor de corrección a la media supuesta para obtener la media exacta de los datos agrupados. X A (fv ) n Ejemplo: Por considerarlo así pondremos el mismo ejercicio anterior utilizando una media supuesta de A = 5: CALCULOS METODO ABREVIADO DESVIACIÓN EN UNIDADES ORIGINALES Kilómetros Intervalo de clase Km. Promedio X Número de estudiantes f Desviación v X A Total fv 0 y menos de 2 1 2 -4 -8 2 y menos de 4 3 5 -2 -10 4 y menos de 6 5 4 0 0 6 y menos de 8 7 8 2 16 8 hasta 9 1 4 4 10 X A ( fv ) n 2 20 5 5 0.1 5.1 Km. d El método abreviado, ilustrado anteriormente, puede ser simplificado aún más si las desviaciones de los valores individuales con respecto a la media supuesta son expresadas en intervalo de clase en vez de unidades originales. Cuando todas las clases en una distribución de frecuencia son del mismo tamaño, las desviaciones (v) con respecto a la media supuesta deben tener el factor común < el tamaño del intervalo de clase > Así, las desviaciones con respecto a la media supuesta pueden ser factorizadas de acuerdo con el tamaño de clase o amplitud. d = La desviación de la marca de clases con respecto a la media supuesta en unidades de intervalo de clase. Así d es también el número de clases anteriores o posteriores a la clase correspondiente a la media supuesta ( la clase en la cual cae la media supuesta), tal como -1, -2, -3, . . . ( es decir uno, dos, tres, . . . clases anteriores a la clase correspondiente a la media supuesta) y 1 (o + 1), 2, 3, . . . ( es decir uno, dos, tres . . . clases posteriores a la clase de la media supuesta, respectivamente). i = la amplitud o tamaño de clase v i d y v d (i ). CALCULO DE LA MEDIA ARITMETICA MEDIANTE EL METODO ABREVIADO DESVIACIONES EN UNIDADES DE INTERVALO DE CLASE (d) Kilómetros Intervalo de clase Km. Promedio Punto medio X Número de estudiantes Frecuencia Desviación respecto a d = v/f Total desviaciones En unidades de intervalo fd 0 y menos de 2 1 2 -2 -4 2 y menos de 4 3 5 -1 -5 4 y menos de 6 5 4 0 0 6 y menos de 8 7 8 1 8 8 hasta 9 1 2 2 10 Total 20 X A ( fd ) n i = 5 1 20 ( 2) 1 = 5 + 0.1 = 5.1 Km Principales características de la media: De la exposición anterior podemos ahora presentar las principales características de la media como sigue: 1.- El cálculo de la media aritmética está basado en todos los valores de un conjunto de datos. El valor de cada elemento en los datos afecta por lo tanto, el valor de la media. Cuando algunos valores extremos son incluidos en los datos, la media puede llegar a ser menos representativa del conjunto de valores. Por ejemplo, la media de los valores 1, 2, 4, y 93 es 25 la media no esta cerca de ninguno de los cuatro valores. La media de los valores 24, 25, 25 y 26 es también 25. Es obvio que la media 25 es menos representativa del primer grupo de valores que la del último grupo de valores. 2.- Básicamente la media es calculada como sigue: Suma de valores Número de valores Media Así, si dos cualesquiera de los tres términos en la expresión (media, suma de valores y número de valores) son conocidos, el tercero puede ser determinado. Por ejemplo, si la media es 5 y el número de valores es 8, la suma de los valores puede ser determinada, o 5x8=40. 3.- La media tiene dos propiedades matemáticas importantes, las cuales proporcionan análisis matemático adicional y las cuales han hecho su uso más popular que cualquier otro tipo de promedios. a.- La suma algebraica de las desviaciones de los valores individuales con respecto a la media, es cero. Esta propiedad ha sido indicada en la expresión concerniente al método abreviado de cálculo de la media. En general, sea x = X - X, o la desviación de cada valor. x (X X) 0 b.- La suma del cuadrado de las desviaciones con respecto a la media es mínima; o simbólicamente. x2 (X X ) 2 es menor que Datos no agrupados X X n (X - cualquier valor ) 2 Datos agrupados X ( fX ) n