ACTIVIDAD No. 2 MEDIDAS DE TENDENCIA CENTRAL (POSICION) Y DE DISPERSION I. Desarrolle las siguientes actividades con su equipo: 1. Investigue, estudie y documente los siguientes términos: a) Datos agrupados. Los datos se agrupan en clases con el fin de sintetizar, condensar, resumir o hacer más fácilmente manejable la información. Las clases constan de un límite inferior y de un limite superior. b) Datos no agrupados. Cuando a los datos no se les han aplicado algún tratamiento de agrupación, pudiendo ser dichas series: Sin frecuencias: cuando no se repiten los valores. Con frecuencias: cuando se repiten los valores. c) Cálculo de la media poblacional. Es la suma de todos los valores en la población dividida entre el numero de valores en la población d) Parámetro. Cualquier característica mensurable de la población. La media de una población es un parámetro. e) Cálculo de la media muestral. Es la suma de todos los valores de la muestra divididos entre el numero total de valores de la muestra. f) Estadístico o estadígrafo. La media de una muestra o cualquiera otra medida basada en los datos de una muestra. Característica de una muestra. Ejemplo: Si el diámetro externo medio de una muestra de cinco rodamientos de bala es 0.625 pulgadas. g) Propiedades de la media aritmética. Es una medida de ubicación que se emplea con frecuencia y tiene varias propiedades importantes: 1 Cada conjunto de datos de intervalo o de niveles de razón tiene una media. 2 Todos los valores se incluyen al calcular la media. 3 Un conjunto de datos solo tiene una media. La media es única. 4 La suma de las desviaciones de cada valor de la media siempre será cero. Expresado simbólicamente h) Calculo de la media ponderada. Es un caso especial de la media aritmética. Ocurre cuando hay varias observaciones del mismo valor. Formula. i) Calculo de la mediana. El punto medio de los valores después de que se ordenan desde el mas bajo hasta el mas alto o desde el mas alto hasta el mas bajo. j) Calculo de la moda. El valor de la observación que aparece con mayor frecuencia La moda es muy util sobre todo al describir niveles de medición nominales y ordinales. k) Calculo de la media geométrica. Sirve para encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento tiene muchas aplicaciones en administración y economía por que a menudo nos interesa calcular los cambios porcentuales en ventas, salarios o cifras económicas. Formula l) Calculo de la media, mediana y moda para datos agrupados. MEDIA ARITMÉTICA Cuando los datos se presentan en una distribución de frecuencias, todos los valores que caen dentro de un intervalo de clase dado se consideran iguales a la marca de clase, o punto medio, del intervalo. Las fórmulas k X = f1X1 + f2X2 + ...+fkXk = fjXj = fX = fX j=1 ----------------------------- ------ ------- ------f1 + f2 + ...+ fk k f N fj j=1 k X=A+ fjdj = A + fd j=1 ------------ -----------k fj N j=1 son válidas para tales datos agrupados si interpretamos Xj como la marca de clase, fj con su correspondiente frecuencia de clase, A como cualquier marca de clase conjeturada y dj = Xj - A como las desviaciones Xj con respecto de A. Los cálculos con las dos ecuaciones anteriores se llaman métodos largos y cortos, respectivamente . Si todos los intervalos de clase tienen idéntica anchura c, las desviaciones dj = Xj - A pueden expresarse como cuj, donde uj pueden ser 0, ±1, ±2, ±3,..., y la segunda fórmula se convierte en k X = A + "fjuj = A+ "fu c j=1 -------- ------------- NN que es equivalente a la ecuación X = A + cu. Esto se conoce como método de compilación para calcular la media. Es un método muy breve y debe usarse siempre para datos agrupados con intervalos de clase de anchuras iguales. Se debe notar que en el método de compilación los valores de la variable X se transforman en los valores de la variable u de acuerdo con X = A + cu. LA MEDIANA La mediana de un conjunto de números en magnitud es o el valor central o la media de los dos valores centrales. Para datos agrupados, la mediana obtenida por interpolación viene dada por Mediana = L1 + N/2 - ("f)1 c -------------fmediana donde: L1 = frontera inferior de la clase de la mediana. N = Número de datos (frecuencia total) ("f)1 = suma de frecuencias de las clases inferiores a la de la mediana. fmediana = frecuencia de la clase de la mediana. c = anchura del intervalo de clase de la mediana. Geométricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical que divide un histograma en dos partes de igual área. Ese valor de X se suele denotar por X. LA MODA La moda de un conjunto de números es el valor que ocurre con mayor frecuencia; es decir, el valor más frecuente. La moda puede no existir, e incluso no ser única en caso de existir. En el caso de datos agrupados donde se haya construido una curva de frecuencias para ajustar los datos, la moda será el valor (o los valores) de X correspondiente al máximo (o máximos) de la curva. Ese valor de X se denota por X. La moda puede deducirse de una distribución de frecuencias o de un histograma a partir de la fórmula Moda = L1 + 1 c ----------1+ 2 donde: L1 = frontera inferior de la clase modal. 1 = exceso de la frecuencia modal sobre la de la clase inferior inmediata. 2 = exceso de la frecuencia modal sobre la clase superior inmediata. c = anchura del intervalo de clase modal m) Distribución con sesgo cero. Medida estadística que describe la simetría de la distribución alrededor de un promedio. Si el sesgo es igual a cero, la distribución es simétrica n) Distribución con sesgo positivo. Si el sesgo es positivo la distribución una tendrá una cola asimétrica extendida hacia los valores positivos o) Distribución con sesgo negativo. Un sesgo negativo indica una distribución con una cola asimétrica extendida hacia los valores negativos p) Calculo del rango. Es la diferencia entre los valores mas alto y mas bajo en el conjunto de datos. Formula Rango= Valor mas alto – Valor mas bajo q) Calculo de la desviación media. Mide la cantidad media por la cual los valores en una población o muestra varia de su media, La media aritmética de los valores absolutos de las desviaciones de la media aritmética. Formula: r) Calculo de la varianza poblacional. Como la Media de la diferencia al cuadrado entre cada valor y la media. Para las poblaciones cuyos valores cercanos a la media, la varianza es pequeña. Para las poblaciones cuyos valres estan dispersos de la media, la varianza va a ser alta. Formula: s) Calculo de la desviación estándar poblacional. La raíz cuadrada de la varianza de la población. Formula: t) Determinación de la varianza y desviación estándar muestral. El cuadrado de la desviación estándar recibe el nombre de varianza y se representa por S2 Desviación estándar muestra es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable. u) Determinación de la varianza y desviación estándar para datos agrupados. La varianza es un estimador de la dispersión de una variable aleatoria X respecto a su esperanza E[X] . Se define como la esperanza de la transformación esto es, , Está relacionada con la desviación estándar o desviación típica, que se suele denotar por la letra griega σ y que es la raíz cuadrada de la varianza, o bien v) Teorema de Chebyshev. Nos permite determinar la proporción mínima de los valores que se encuentran en un numero especifico de desviaciones estándar de la media. EL Teorema Para cualquier grupo de observaciones (muestra o población), la proporcion de los valores que se encuentra dentro de k desviaciones estandar de la media es por lo menos 1 – 1/k, donde k es cualquier constante mayor que 1. w) Coeficiente de variación. es útil para comparar dispersiones a escalas distintas pues es una medida invariante ante cambios de escala. Por otro lado presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media de por tanto un valor positivo. Exigimos que: Se calcula: Donde S es la desviación típica. x) Diseño de un trazo de puntos. Agrupa los datos lo menos posible y no perdemos la identidad de una observación individual. Para desarrollarlo simplemente desplegamos un punto para cada observación a lo largo de una línea numérica horizontal indicando los posibles valores de la información. Si hay observaciones identicas o muy parecidas que no se pueden mostrar en forma individual, los puntos se apilan uno encima de otro. Esto nos permite ver la forma de la distribución, el valor del cual los datos tienden a agruparse y las observaciones mas alta y mas baja. Los diagramas de puntos son mas utiles para conjuntos de datos pequeños y) Diseño de un diagrama de tallos y hojas. Tecnia estadistica para presentar u conjunto de datos. Cada valor numerico se divide en dos partes. El (los) digito(s) lider(es) se convierte(n) en el tallo y los digitos secundarios son las hojas. Los tallos se colocan a lo largo del eje vertical y los valores de las hojas a lo largo del eje horizontal. z) Cuartiles, deciles, percentiles y el diseño de un diagrama de caja. Los Cuartiles dividen u ngrupo de observaciones en cuatro partes iguales. El primer cuartel, indicado casi siempre como Q1, es el valor debajo del cual ocurren 25% de las observaciones, y el tercer cuartel, que por lo general se indica como Q3, es el valor debajo del cual ocurren 75% de las observaciones. Por logica, Q2, es la mediana.podemos considerar que Q1 es la “mediana” de la mitad inferior de los datos y Q3 es la “mediana” de la mitad superior. Los Deciles dividen un grupo de observaciones en 10 partes iguales Los percentiles dividen un grupo de observaciones en 100 partes iguales Formula: aa) Cálculo de la asimetría. Para calcular la asimetría, una posibilidad, es utilizar el llamado coeficiente de FISHER que representaremos como g1 y responderá a la siguiente expresión matemática: g1 (x i 3 x) ni ns 3 Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o positiva, a izquierdas o negativa, o simétrica, o sea: Si g1 > 0 derecha). izquierda). Otra posibilidad de calcular la asimetría, es por medio del coeficiente de PEARSON (Ap), el cual responde a la siguiente expresión. Ap X Mo S Aunque en la práctica este coeficiente sería más fácil de calcular que el anterior, casi no lo utilizaremos ya que solo es cierto cuando la distribución tiene las siguientes condiciones: Unimodal Campaniforme Moderada o ligeramente asimétrica. Si Ap > 0 derecha). la izquierda). bb) Construcción de un diagrama de dispersión Un diagrama de dispersión es una representación gráfica de la relación entre dos variables, muy utilizada en las fases de Comprobación de teorías e identificación de causas raíz y en el Diseño de soluciones y mantenimiento de los resultados obtenidos cc) Construcción de tablas de contingencia. Se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa -nominales u ordinales-. 2. Elabore un formulario 3. Elaboren un reporte para entregar por escrito que contenga los términos que se le indican. II. Resuelva de forma individual los ejercicios y problemas más interesantes del capitulo o capítulos correspondientes (NO SE ENTREGAN)