Estadística Aplicada Doc. Juan Roberto Morales Romero Definiciones generales Objetivo Brindar al participante los conceptos teóricos básicos sobre Media Aritmética para datos no agrupados y agrupados En esta sesión - Conceptos básicos de Media Aritmética para datos agrupados y no agrupados Formulas Ejemplos Resueltos Ejercicios Propuestos 1 Estadística Aplicada Doc. Juan Roberto Morales Romero Conceptos básicos de Media Aritmética Media Aritmética Se trata del valor medio de todos los valores que toma la variable estadística de una serie de datos. Por lo tanto, la medida posicional más utilizada en los estudios estadísticos. Por su fácil cálculo e interpretación, es la medida de posición más conocida y más utilizada en los cálculos estadísticos. La media es el valor más representativo de la serie de valores, es el punto de equilibrio, es el centro de gravedad de la serie de datos. Esta dada por la suma de todos los datos de la población dividida entre el numero total de ellos. Desviaciones o desvíos Son diferencias algebraicas entre cada valor de la serie o cada punto medio y la media aritmética de dicha serie, o un valor cualquiera tomado arbitrariamente. Los desvíos o desviación se designan con la letra di. Dado una serie de valores X1, X2, X3, .......Xn , se llama desvío a la diferencia entre un valor cualquiera Xi de la serie y un valor indicado k de esa misma serie. Si el valor indicado k de la serie corresponde precisamente a la media aritmética de esos valores dados, se dice entonces que los desvíos son con respecto a la media aritmética. En símbolo: d i = ( X i − X ). Propiedades de la media aritmética 1. – La suma de las desviaciones con respecto a la media aritmética es igual a cero. ∑ d i = 0. 2. – La suma de las desviaciones al cuadrado de los diversos valores con respecto a la media aritmética es menor que la suma de las desviaciones al cuadrado de los diversos valores con respecto a cualquier punto K, que no sea la media aritmética. ∑ (X i − X ) 2 < ∑ (X i − K ) 2 . Características principales de la media aritmética 1. – El valor de la media depende de cada una de las medidas que forman la serie de datos, y se halla afectada excesivamente por los valores extremos de la serie de datos. 2. – La media se calcula con facilidad y es única para cada caso y permite representar mediante un solo valor la posición de la serie de valores. 3. – La media es una medida de posición que se calcula con todos los datos de la serie de valores y es susceptible de operaciones algebraicas. 2 Estadística Aplicada Doc. Juan Roberto Morales Romero Definiciones generales Objetivo Brindar al participante los conceptos teóricos básicos sobre medidas de posición ( Cuartil , Decil y Percentil ). En esta sesión - Conceptos básicos de Cuartil Decil y Percentil Formulas Ejemplos Resueltos Ejercicios Propuestos 3 Estadística Aplicada Doc. Juan Roberto Morales Romero Conceptos básicos de Cuartil, Decil y Percentil Cuartiles Medida de posición que divide en cuatro partes iguales al conjunto de los valores ordenados de una distribución de frecuencias. Las medidas son el primer cuartil Q1, el segundo cuartil Q2 y el tercer cuartil Q3. Q1 Q2 = Md 25% 75% Q2 = Md 75% ♦ 25% PRIMER CUARTIL Distribuye a la izquierda el 25% de los datos y al lado derecho el 75 % ver figura 1 ♦ SEGUNDO CUARTIL Coincide con la mediana entonces el segundo cuartil es igual a la mediana Q2 = Md ♦ TERCER CUARTIL Distribuye a la izquierda el 75% del numero de datos y al otro lado el 25% del numero de valores ver figura 2 Deciles Medida de posición que divide en 10 partes iguales al conjunto de valores ordenados de una distribución de frecuencias . Estas medidas son : El primer decil D1, el segundo decil D 2 hasta el noveno decil D 9. 4 Estadística Aplicada Doc. Juan Roberto Morales Romero ♦ El primer decil distribuye al lado izquierdo el 10% de los datos y al otro lado el 90%. Ocupa la posición (n/ 10). ♦ El segundo decil distribuye al lado izquierdo el 20% de los datos y al otro lado el 80%. Ocupa la posición (2n/ 10). ♦ El noveno decil distribuye al lado izquierdo el 90% de los datos y al otro lado el 10%. Ocupa la posición (9n/ 10). 0 D1 D2 D3 0 n /10 2n /10 3n /10 D4 D9 9n/10 Percentiles Medida de posición que divide en 100 partes iguales al conjunto de valores ordenados de una distribución de ...... P99 . El 50 percentil coincide con la mediana. frecuencias y se indican con P1, P 2, 0 P1 P2 P3 P99 Formulas 5 Estadística Aplicada Doc. Juan Roberto Morales Romero Cuartiles Q1 = Extremo Inferior + ( n/4 - Fi - 1 ) *c f Q3 = Extremo Inferior + ( 3n/4 - Fi - 1 ) *c f Deciles Dr = Extremo Inferior + ( r n /10 - Fi - 1 ) *c f Dr = Decil Buscado Extremo Inferior = Extremo inferior donde se halla el decil buscado r = indica el decil . Tercer decil ( r=3 ) r toma valores de 1 hasta el 9. rn / 10 = indica la situación del decil . Intervalo donde esta el decil Percentiles Pr = Extremo Inferior + ( r n /100 - Fi - 1 ) *c Ejemplos Resueltos f Pr = Indica percentil Buscado Extremo Inferior = Extremo inferior donde se halla el percentil r = es el rango percentil, es decir , la situación dentro de la escala ordenada de cien elementos. rn / 100 = indica el intervalo de la distribución de frecuencia donde se halla el percentil Cuartiles EJERCICIO 1 Al aplicar una evaluación de Teoría política a un grupo de 138 alumnos se obtuvieron los siguientes puntajes organizado en la siguiente distribución de frecuencias. a) Determinar el 25% inferior y el 25% superior. Intervalos fi Fi 40-45 4 4 45-50 8 12 50-55 15 27 55-60 24 51 60-65 31 82 65-70 19 101 70-75 16 117 f 6 Estadística Aplicada Doc. Juan Roberto Morales Romero 75-80 10 127 80-85 8 135 85-90 3 138 24 n = 138 Determinar el 25% superior : Calculando el cuartil Q 3 Para determinar el intervalo donde esta el Q 3 dividimos : 3n / 4 = 3 * 138 /4 = 103.5 se halla en el sétimo intervalo empieza en 102 y termina en 117 Aplicando formula : Q3 = Extremo Inferior + ( 3n/4 - Fi - 1 ) *c f Fi - 1 = F 7 f7 = 16 - 1= F 6 = 101 Q3 = 70 + (103.5 – 101)*5 16 Q3 = 70+0.78 Q3 = 70.78 Q3 = 71 Todos los alumnos con puntaje superior a 71 se hallan en el 25% superior. Deciles EJERCICIO 2 Se tiene los puntajes obtenidos por 269 alumnos en una prueba de rendimiento de Geometría . a) Determinar los puntajes de los que se hallan en el 20% inferior y cuales puntajes se ubican en el décimo superior Intervalos fi Fi 20-24 3 3 24-28 8 11 28-32 16 27 7 Estadística Aplicada Doc. Juan Roberto Morales Romero 32-36 25 52 36-40 41 93 40-44 55 148 44-48 48 196 48-52 33 229 52-56 21 250 56-60 12 262 60-64 7 269 n = 269 Puntajes de los que se hallan en el 20% inferior Calculando el segundo decil. Entonces r=2 Ubicación del segundo decil 2n / 10 = (2*269) /10 =53.8 Entonces el segundo decil esta en el quinto intervalo Aplicando la formula : Dr = Extremo Inferior + ( r n /10 - Fi - 1 ) *c f D2 = 36 + ( 53.8 - 52 ) *4 41 D2 = 36.18 Todos los alumnos que tengan puntajes desde 20 hasta 36 entero inmediato anterior a 36.18 se encuentra en el 20% inferior Puntajes se ubican en el décimo superior Calculando el noveno decil. Entonces r=9 Ubicación del segundo decil 9n / 10 = (9*269) /10 = 242.1 Entonces el noveno decil esta en el noveno intervalo Aplicando la formula : Dr = Extremo Inferior + ( r n /10 - Fi - 1 ) *c f D9 = 52 + ( 242.1 - 229 ) *4 21 8 Estadística Aplicada Doc. Juan Roberto Morales Romero D9 = 54.50 Todos los alumnos que tengan puntajes desde 55 se hallaran en el décimo superior Percentiles EJERCICIO 3 Con la siguiente distribución de frecuencia calcular P 10 y P 90 Intervalos fi Fi 30-40 4 4 40-50 6 10 50-60 8 18 60-70 12 30 70-80 9 39 80-90 7 46 90-100 4 50 n=50 Calculando P10 Empleando la formula : Pr = Extremo Inferior + ( r n /100 - Fi - 1 ) *c f Calculando P10. Entonces r=10 Ubicación del décimo percentil r n / 100 = (10*50) /100 = 5 Entonces el décimo percentil esta en el segundo intervalo Aplicando la formula : Pr = Extremo Inferior + ( r n /100 - Fi - 1 ) *c f P10 = 40 + ( 5 - 4 ) *10 6 P10 = 41.67 = 42 puntos Calculando P90 9 Estadística Aplicada Doc. Juan Roberto Morales Romero Empleando la formula : Pr = Extremo Inferior + ( r n /100 - Fi - 1 ) *c f Calculando P90. Entonces r=90 Ubicación de P90. r n / 100 = (90*50) /100 = 45 Entonces el P90. esta en el sexto intervalo Aplicando la formula : Pr = Extremo Inferior + ( r n /100 - Fi - 1 ) *c f P90 = 80 + ( 45 - 39 ) *10 7 P90 = 88.57 = 89 puntos Ejercicio Propuestos Cuartiles Intervalos fi Fi 116-125 1 1 Intervalos fi Fi 125-134 4 5 66-73 2 2 134-143 10 15 73-80 9 11 143-152 12 27 80-87 8 19 152-161 6 33 87-94 14 33 161-170 5 38 94-101 9 42 40 101-108 Intervalos 108-115 31-38 Intervalos 170-179 fi 2 Fi 11-13 1 n=40 1 13-15 5 6 9 15 17-19 14 29 19-21 12 41 Respuestas : 15-17 38-45 6 fi 2 2 2 n = 50 48 Fi 4 45-52 Respuestas 5: 9 52-59 21 Q1 = 81.31 12 50 2 10 Estadística Aplicada Doc. Juan Roberto Morales Romero Q1 = 138.5 = 139 Q3 = 156.5 = 157 Deciles Y Percentiles 11 Estadística Aplicada Doc. Juan Roberto Morales Romero Definiciones generales Objetivo Determinar que los datos tienden a alejarse de los valores medios o tendencia central es decir los datos presentan dispersión. En esta sesión - Conceptos básicos de Medida de dispersión, rango, desviación estándar o desviación típica y varianza - Formulas - Ejemplos Resueltos - Ejercicios Propuestos 12 Estadística Aplicada Doc. Juan Roberto Morales Romero - Conceptos básicos de Medida de dispersión, rango, desviación estándar o desviación típica y varianza Medida de dispersión Determinan el grado de alejamiento de los datos respecto a una medida de posición que generalmente suele ser la media . nos da una idea de lo agrupado que están los datos Estas medidas de posición central no tienen ningún valor si no se conoce como se acercan o se alejan esos valores con respecto al promedio, en otras palabras es conocer como se dispersan o varían esos valores con respecto al promedio de una distribución de frecuencia. Las Medidas de Dispersión relativa. Son relaciones entre medidas de dispersión absolutas y medidas de tendencia central multiplicadas por 100, por lo tanto vienen expresadas en porcentaje Cuando la dispersión es baja indica que la serie de valores es relativamente homogénea mientras que una variabilidad alta indica una serie de valores heterogénea. RANGO O RECORRIDO(R) Es la primera medida de dispersión, no esta relacionada con ningún promedio en particular, ya que este se relaciona con los datos mismos, puesto que su cálculo se determina restándole al dato mayor de una serie el dato menor de la misma Rango(R) = Dato mayor (XM) −Dato Menor (Xm) R = XM − Xm. El rango es la medida de dispersión más sencilla e inexacta dentro de las medidas de dispersión absoluta. Indica la extension de los valores que puede tomar la variable cuyas medidas constituyen los datos Rango = Valor Máximo – Valor Mínimo Se utiliza cuando se desea una rápida apreciación de la extensión de los datos es afectado por los valores extremos no toma en cuenta las variaciones al interior de la distribución. DESVIACIÓN MEDIA Su uso es restringido porque existen otras medidas mas precisas . La desviación media es la media de las desviaciones La desviación media de un conjunto de N observaciones x 1, x 2, x 3,.............x n, es el promedio de los valores absolutos de las desviaciones (di) con respecto a la media aritmética o la mediana. Si se denomina como DM a la desviación media Observamos que es las desviaciones de cada valor con respecto a la media . Las desviaciones se toman en valor absoluto . La suma obtenida se divide entre el numero de elementos. 13 Estadística Aplicada Doc. Juan Roberto Morales Romero DESVIACIÓN TÍPICA O ESTÁNDAR Es la medida de dispersión más utilizada en las investigaciones por ser la más estable de todas, ya que para su calculo se utilizan todos los desvíos con respecto a la media aritmética de las observaciones, y además, se toman en cuenta los signos de esos desvíos. Se le designa con la letra castellana S . La desviación típica es una forma refinada de la desviación media”. Es la raíz cuadrada de la suma de los cuadrados de las desviaciones de cada valor con respecto a la media , dividida entre el numero de valores. INTERPRETACIÓN DE LA DESVIACIÓN TÍPICA La desviación típica como medida absoluta de dispersión, es la que mejor nos proporciona la variación de los datos con respecto a la media aritmética, su valor se encuentra en relación directa con la dispersión de los datos, a mayor dispersión de ellos, mayor desviación típica, y a menor dispersión, menor desviación típica. Formulas Desviación Media N DM = ∑ Xi N − X i =1 N = ∑ di i =1 N Desviacion Estandar o tipica Datos no agrupados Ó (xi – x )2 S= n Datos Agrupados S= Ó fi(xi – x )2 n 14