Lidia C. Diblasi CAPÍTULO III MEDIDAS DE POSICIÓN Y DISPERSIÓN I- MEDIDAS DE TENDENCIA CENTRAL Una medida de tendencia central es un número que indica el centro de una serie de datos, o de una distribución. Se llaman también medidas de localización. Si imaginamos los valores de un grupo de datos representados en un eje horizontal, las medidas de tendencia central y localización nos dicen donde está el “centro” de la distribución. A diario usamos, por ejemplo, la palabra promedio sin hacer ningún cálculo para referirnos al tiempo que demoramos “en promedio” para ir de nuestra casa al trabajo, para calcular la cantidad de dinero que gastamos en nafta en el mes; para ver cuánto estamos dispuestos a gastar “en promedio” para comprar una determinada prenda; etc. Si bien no hacemos ningún cálculo en el momento, la expresión tiene un significado muy útil para transmitir a otros una información. Lo que hacemos es una aproximación de la realidad, no significa que sea exactamente la realidad, pero sí será un valor parecido, cercano, un valor esperado por alguna causa. Esa causa generalmente está basada en la experiencia que tenemos como para poder dar un valor aproximado. Las medidas de tendencia Central son valores que pueden resumir los datos en un único valor. Representan una síntesis, no puede ser un valor menor al valor más pequeño de la distribución, ni tampoco un valor mayor a cualquiera de la distribución. Debe ser un valor que esté en el centro de la misma si los datos están ordenados. “Un valor semejante que representa todo un conjunto de datos, tiene que ser un valor central o de posición central a cuyo alrededor se distribuyen todos los datos del conjunto” (CHAO, Lincoln, 63). Son varias las medidas de tendencia central, nosotros nos dedicaremos especialmente a tres de ellas: la media aritmética, la mediana y el modo. 66 Lidia C. Diblasi La media aritmética: es la medida de tendencia central que se calcula más frecuentemente; es la que en lenguaje común y corriente se denomina, como ya vimos, promedio. Dada una variable discreta, la media aritmética o simplemente la media de un conjunto x1, x2, x3,...xn se denota por x y se define como: N Σ x x1+ x2+ x3+.....+.xn xi i=1 = ________________ = __ ____ N N N Donde Σ i=1 indica que hay que sumar todas las x disponibles desde x1 hasta xn. Los símbolos i= 1 y N que aparecen abajo y encima del signo ∑ s e los conoce como límites de la sumatoria. Cuando está claro en el contexto cuáles son estos límites, pueden omitirse y escribir solamente ∑. Veamos un ejemplo: Si tenemos las siguientes notas resultado de cuatro parciales y queremos calcular el promedio, sumamos las cuatro notas y dividimos el resultado por la cantidad de notas: Notas: 7; 6,50; 8; 10 Media aritmética o Promedio: 7+6,50+8+10= 31,50 /4 = 7,875 La diferencia entre las X mayúscula y la x minúscula se debe a que las mayúsculas se refieren a la variable en estudio (como peso, estatura, etc.) y las minúsculas, a cada uno de los valores de la variable X Si los valores x1+ x2+ x3+......xn ocurren f1+ f2+ f3+......fn respectivamente (es decir que ocurren con frecuencia f1+ f2+ f3+......fn) la media aritmética es: N Σ x x1 f1+ x2 f2+ x3 f3+......+xn fn xi fi i=1 = _______________________ = ___ _____ N f1+ f2+ f3+.....+ fn 67 Σf i=1 i Lidia C. Diblasi N Donde Σ fi = N es la frecuencia total, es decir el número total valores o de las i=1 unidades de análisis. Cuando, como resultado de un estudio, tenemos un conjunto de datos sin organización, estos prácticamente no tienen ninguna significación. Si los organizamos teniendo en cuenta los valores observados, los ordenamos siguiendo algún criterio, y tenemos en cuenta la frecuencia o cantidad de veces que se repite cada uno de esos valores, ello nos permitirá analizarlos y trabajarlos para conocer por ejemplo: cuál es el valor más repetido, cuál el menor valor, cuál el mayor, si hay mucha concentración de los datos en pocos valores, o si por el contrario están muy dispersos. Si la cantidad de datos es pequeña y la vamos a trabajar manualmente nos conviene ordenar los valores construyendo una tabla de frecuencias. Veamos un ejemplo: Los siguientes datos hacen referencia a la nota obtenida en un parcial por una muestra de 20 alumnos 5 8 7 9 6 8 8 9 5 9 2 4 6 9 7 8 7 6 10 8 El recorrido de esta variable (Rango) es desde 2 puntos, el valor más pequeño, hasta 10 el mayor puntaje de notas de este grupo. Realizamos los siguiente pasos para calcular la media: 1- ordenamos los valores de la variable: “nota de los alumnos” 2- calculamos la media o promedio teniendo en cuenta la cantidad de veces que se repite cada valor de la variable (frecuencia absoluta). 68 Lidia C. Diblasi xi fi 2 4 5 6 7 8 9 10 1 1 1 3 4 5 4 1 Podemos calcular ahora la Media Aritmética teniendo ordenado los valores con su correspondiente frecuencia. Como cada valor de la variable se repite, en general, más de una vez, vamos a multiplicar cada valor de la variable por su frecuencia, antes de sumar. Para ellos usamos la siguiente fórmula: N Σx f i i i=1 x = ___ ___ N Σf i=1 i xi fi xi * fi 2 4 5 6 7 8 9 10 1 1 1 3 4 5 4 1 2 4 5 18 28 40 36 10 Ahora podemos calcular la media x = 143 20 x = 7,15 es la nota promedio que han obtenido en un examen parcial los alumnos de ese grupo. 69 Lidia C. Diblasi Podemos tratar a la variable continua como si fuera discreta, dividiendo los valores en intervalos de clase. En tal caso, se consideran los valores comprendidos en el intervalo como si fuesen iguales al punto medio del intervalo de clase. Si se denomina xi a los puntos medios de los intervalos de clase y fi a las frecuencias absolutas de los valores comprendidos en cada intervalo, la media aritmética puede ser calculada de la misma forma que en el ejemplo anterior, donde xi pasa a ser el punto medio del intervalo de clase: Veamos un ejemplo: Los siguientes datos hacen referencia a la edad al contraer matrimonio en una muestra de 50 mujeres 15 28 17 25 30 32 38 19 25 19 35 41 48 43 33 35 23 24 28 17 21 22 26 29 30 31 40 16 19 21 22 26 25 36 37 52 41 22 33 36 29 27 31 20 29 24 45 54 19 32 El recorrido de esta variable (Rango) es desde 15 años, el valor más pequeño, hasta 54 años, la edad mayor de este grupo de mujeres en contraer matrimonio. Realizamos los siguiente pasos: 1- calculamos los intervalos de clase. 2- calculamos los puntos medios de los intervalos, que pasan a ser los valores representativos de la clase: xi. 3- buscamos la frecuencia absoluta de cada clase o intervalo de clase. 4- calculamos la media o promedio teniendo en cuenta la cantidad de veces que se repite cada valor de la variable. 70 Lidia C. Diblasi Intervalo xi fi xi * fi 15 - 19 17 8 136 20 - 24 22 9 198 25 - 29 27 11 297 30 - 34 32 8 256 35 - 39 37 6 222 40 - 44 42 4 168 45 - 49 47 2 94 50 - 54 52 2 104 Ahora podemos calcular la media: N Σx f i i x = ___i=1___ N Σf i i=1 x = 1475 50 x = 29,5 años es la edad promedio al casarse de éste grupo de mujeres. Algunas propiedades de la media aritmética: 1) La suma algebraica de los desvíos de un conjunto de valores en relación con su media es cero. Σ (x - x) i =0 Veamos un ejemplo: Si tenemos los siguientes valores de una variable X: 1; 3; 5:7; 9 y calculamos la media de esos valores nos da: 5 71 Lidia C. Diblasi Luego si a cada valor de la variable le restamos la media: x = xi xi - x 1 -4 3 -2 5 0 7 2 9 4 ∑ = 25 25 = 5 5 ∑=0 Podemos comprobar que la suma de éstos valores es igual a cero: Σ (x - x ) i =0 De igual forma se comprueba cuando trabajamos con frecuencias: Σ (x - x ) f = 0 Σ [ x f – x Σfi ] = 0 i i i i Σ xi fi Σ [ xi fi - ______ Σfi ] = 0 Σfi Σx f Σ x f = 0 i i- i i La razón de que la primera propiedad se verifique se debe a que cuando se sustrae la media de cada uno de los datos, las diferencias resultantes, son tales que las marcas negativas se equilibran exactamente con las positivas. Ello nos está indicando que la media es el centro de gravedad de la distribución y que si pudiéramos poner los valores de la variable sobre una barra en suspenso y la levantáramos desde el punto donde se encuentra el valor de la media, la barra no debería inclinarse, debería mantenerse horizontal. 72 Lidia C. Diblasi 2) La suma de los cuadrados de los desvíos de un conjunto de valores xi respecto a cualquier valor c es un mínimo si y solo si c = x. Σ (x - x ) i 2 = es un mínimo Veamos un ejemplo con los datos del ejercicio anterior: xi xi - x (xi – x )2 1 -4 16 3 -2 4 5 0 0 7 2 4 9 4 16 40 ∑ = 25 ∑ = 0 Σ (x - x ) i 2 = 40 Supóngase que se calculan los desvíos con respecto a un punto cualquiera: c< x óc >x xi xi - 4 (xi – 4)2 1 -3 9 3 -1 1 5 1 1 7 3 9 9 5 25 ∑ =5 45 ∑ = 25 c= 4 xi xi - 8 (xi – 8)2 1 -7 49 3 -5 25 5 -3 9 7 -1 1 9 1 1 ∑ (ξ,ι − ξ) 85 ∑ = 25 c= 8 Σ (x - x) i 2 Σ ( - x) = 45 i 2 = 85 Como podemos observar calculando los desvíos respecto a un valor menor a la media (4) y con un valor mayor a la media (8), vemos que la suma al cuadrado de 73 Lidia C. Diblasi los desvíos es mayor que cuando los desvíos se hacen respecto a la media. Esta propiedad de la media nos permite el cálculo de medidas de dispersión. De la misma forma se puede demostrar con una serie con frecuencia Σ (x – x ) i 2 fi. = a un mínimo 3) Si f1 valores (ó n1 valores) tienen como media x 1; f2 valores (ó n2 valores) tienen como media x 2; ....fk valores (ó nk valores) tienen como media x k, entonces la media de todos los valores es: x 1 f1+ x 2 f2+ x 3 f3+......+ x k fk x = _______________________ f1+ f2+ f3+.....+fk es decir la media aritmética de todas las medias, la llamamos también “Media Ponderada” Veamos un ejemplo: En el siguiente cuadro se muestran las edades promedios al ingresar de los alumnos de las cuatro carreras de la facultad de Ciencias Políticas y Sociales: Sociología, Ciencia Política y Administración Pública, Trabajo Social y Comunicación Social y la cantidad de jóvenes entrevistados. Para calcular la media general de todos los alumnos ingresantes en el año 2008 a la facultad debemos usar la fórmula de la media ponderado o media de medias: Carrera Sociología Ciencia Política Trabajo Social Comunicación Social N (fi) X 35 23 52 96 22.49 21.48 20.6 18.79 74 Lidia C. Diblasi 22,49 *35 + 21,48 * 23 + 20,6 * 52 + 18,79 * 96 x = ________________________________________ 35 + 23 + 52 + 96 x = 4156,23 206 x = 20,17 Más allá de las diferencias de medias de cada carrera, la edad promedio del grupo que ingresó a la Facultad en el año 2008 es de 20,17 años. La Media Ponderada nos permite dar un solo valor que refleje a todos los grupos involucrados. La importancia de esta media de medias es que confirma la propiedad de la media aritmética de ser el centro de gravedad de la distribución ya que tiene en cuenta el peso que poseen las frecuencias de cada valor de media grupal. En nuestro ejemplo la Carrera de Comunicación Social tiene una frecuencia que es muy superior a la de las otras carreras. Resumiendo podemos decir que la carrera de Comunicación Social tiene mayor peso, al tener mayor cantidad de alumnos entrevistados y el más bajo promedio en edad al ingresar a la facultad, por ser el grupo más homogéneo, o con menor dispersión en esta variable. Si los grupos tienen, en alguna característica, diferencias importantes es bueno calcular la media ponderada, que nos da una visión de conjunto y, a su vez, la media por grupos para mostrar o “revelar” las diferencias. Podemos hacer el gráfico que nos muestra muy bien las diferencias entre los grupos y que a su vez nos permite visualizar dónde se ubicaría la media de medias o media ponderada de todos los subgrupos estudiados: 75 Lidia C. Diblasi Promedios de edad al ingreso de los estudiantes de Ciencias Políticas y Sociales 23 22 Edad promedio al ingreso 21 20 19 18 Sociología Ciencia Política Comunic. Social Trabajo Social Carreras Fuente: elaboración propia con los datos obtenidos de una encuesta realizada para el proyecto de investigación sobre los “Perfil de los alumnos ingresantes a la Fac….” Dir. Diblasi, Lidia y colaboradores, SeCTyP, UNCuyo, 2007 – 2009. La mediana: la mediana (Me) es el valor de la variable que divide el conjunto total de valores, ordenados en forma creciente o decreciente, en dos partes numéricamente iguales. Dada una variable discreta y un número de unidades de análisis pequeño, la mediana se calcula de la siguiente forma: 1- Se ordenan los valores de la variable estudiada correspondientes a cada una de las unidades de análisis de menor a mayor (o viceversa) y se determina por simple recuento el valor central que divide al conjunto total en dos partes numéricamente iguales. 2- Si el número total es impar, la mediana es el valor central. Si el número total de unidades es par, la mediana resulta de calcular la media aritmética de los dos valores centrales. Veamos un ejemplo: 76 Lidia C. Diblasi Si tenemos un conjunto de valores y los hemos ordenado: Xi: 2; 5; 7; 8; 10; 11; 15; 16; 23; 25; 29 El valor 11 es el que representa el centro de la distribución, dejando la misma cantidad de valores menores y mayores que él. Me = 11 Si ese conjunto de valores es par y no impar como el caso anterior debemos buscar los dos valores centrales, sumarlos y dividirlos por 2 para obtener la mediana Xi: 2; 5; 7; 8; 10; 11; 15; 16; 23; 25; 29; 30 Me = 11 + 15 2 Me = 13 Cuando la variable está ordenada con frecuencias podemos obtener la Mediana buscando en la frecuencia acumulada aquella que contenga la mitad de los casos y ver a qué valor representa, ése será el valor de la mediana: Veamos un ejemplo: Si usamos los datos de la nota de los parciales que vimos anteriormente al calcular la media, calculamos las frecuencia acumuladas (Fa), podemos observar que de los 20 casos la mitad, 10, corresponde al valor 7. Ello significa que el valor siete, con la serie ordenada es el que deja la misma cantidad de notas menores y mayores que él. xi fi 2 4 5 6 7 8 9 10 1 1 1 3 4 5 4 1 Fa 1 2 3 6 10 15 19 20 Me = 7 77 Lidia C. Diblasi Cuando una variable ya sea discreta, o continua, está ordenada en forma de intervalos de clase, la mediana se obtiene con la siguiente fórmula: N/2 – Fa Me = Li + __________ . ω fi Donde: Li: es el límite inferior del intervalo de clase que en frecuencia acumulada contiene la mitad de las unidades de análisis. Fa: es la frecuencia acumulada hasta el intervalo anterior a la frecuencia acumulada que contiene la mitad de los valores. fi: es la frecuencia absoluta correspondiente al intervalo que en frecuencia acumulada contiene la mitad de las unidades de análisis. ω: es el tamaño del intervalo de clase que en frecuencia acumulada contiene la mitad de las unidades de análisis. Veamos un ejemplo: Intervalo xi fi Fa 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 50 - 54 17 22 27 32 37 42 47 52 8 9 11 8 6 4 2 2 8 17 28 36 42 46 48 50 Podemos observar en la tabla de datos agrupados que la mitad de los casos se encuentra contenida en la frecuencia acumulada 28 (50/2 = 25), lo que nos está indicando que en el intervalo de 25 a 29 años se encuentra la mediana, la cual vamos a calcular siguiendo la fórmula. 25 – 17 Me = 25 + __________. 5 11 78 Lidia C. Diblasi Me = 25 + 3,64 Me = 28,64 Podemos decir que la edad mediana de las mujeres al contraer matrimonio es de 28,64 años. Esta edad divide a la distribución en dos partes iguales. El 50% de las mujeres tiene menos de 28,64 años y el 50% tiene más de esa edad. Comparación de la media aritmética y la mediana: Hay varias diferencias entre ellas: 1- La media aritmética utiliza más información que la mediana, ya que usa todos los datos, mientras que la mediana solo toma la marca del o de los casos medios. Si los valores superiores o inferiores a la mediana fueran marcas muy elevadas o muy bajas (valores extremos), la mediana permanecería inalterable, mientras que la media aumentaría o disminuiría considerablemente. Por lo tanto, podemos decir que: la media resulta afectada por cambios de los valores extremos, en tanto que la mediana permanece inalterada, a menos que cambie el valor del caso medio. 2- La media es por lo regular una medida más estable que la mediana, en cuanto varía menos de una muestra a otra. En la Estadística inductiva, el investigador tendrá interés en generalizar acerca de la población, partiendo de una muestra. Si bien, no puede tomar todas las muestras posibles de una población, es importante que sepa, que las medias de las muestras variarán menos de una a otra que las medianas. 3- Como la media se ve afectada por los valores extremos, el empleo de la mediana es menos equívoco cuando estamos en presencia de una distribución fuertemente asimétrica, o sea, siempre que haya más casos extremos en una dirección que en otra. La media siempre se verá “empujada” en dirección a la 79 Lidia C. Diblasi asimetría, o sea, hacia una cola. Si la distribución es fuertemente simétrica, media y mediana coincidirán. (Ver los gráficos de distribución al final del capítulo) Modo o moda: se denomina modo o moda al valor de la variable que más se repite, el más común, el que se corresponde con la máxima frecuencia. Dada una variable y un número de unidades de análisis pequeño, el modo se encuentra directamente aplicando su definición. Veamos un ejemplo Xi: 1; 1; 5; 7; 7; 7; 8; 9; 9; 10 Mo = 7 Siete es el valor más común o más repetido de ésta serie de datos. Cuando tenemos una serie de datos como la de las notas de un grupo de alumnos en un examen parcial, la moda es siguiendo su definición el valor “más común” xi fi 2 4 5 6 7 8 9 10 1 1 1 3 4 5 4 1 Mo = 8 En el ejemplo la nota más común es 8, por lo tanto la Moda o Modo es igual a 8. Cuando los valores de la variable, discreta o continua, se presentan en forma de intervalos de clase, el modo se obtiene por interpolación utilizando la siguiente fórmula: Mo = Li + ∆1 __________ . ω ∆1 + ∆2 80 Lidia C. Diblasi Donde: Li: es el límite del intervalo de clase modal (es decir, del intervalo que cuenta con la mayor frecuencia) ∆1: es la diferencia entre la frecuencia modal y la frecuencia anterior. ∆2: es la diferencia entre la frecuencia modal y la frecuencia posterior. ω: es el tamaño del intervalo de clase modal. Veamos el ejemplo usado para la media y la mediana: la edad en contraer matrimonio de un grupo de mujeres. Intervalo xi fi 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 50 - 54 17 22 27 32 37 42 47 52 8 9 11 8 6 4 2 2 La mayor frecuencia se encuentra en el intervalo 25 a 29 años, lo que significa que en él encontraremos a la Moda. Sigamos la fórmula: ∆1 = 11-9 ∆2 = 11-8 2 Mo = 25 + __________ . 5 2 +3 Mo = 25 + 2 Mo = 27 En éste grupo la edad de las mujeres más común, al contraer matrimonio, de es 27 años 81 Lidia C. Diblasi En el ejemplo que hemos seguido para calcular la Media, la Mediana y el Modo obtuvimos valores medios semejantes, ya que todos se ubican en el intervalo de clase de 25 a 29 años ( x = 29,5; Me = 28,64; Mo = 27), lo cual nos está diciendo que la distribución de la variable que estudiamos tiene una distribución simétrica. Pero al no ser iguales las medidas de tendencia central quiere decir que no hay una perfecta simetría, si no que hay una leve asimetría, en éste caso, hacia la derecha y eso nos lo demuestra la media, que tiene el valor más alto de las tres medidas y es la que se ve empujada por los valores extremos Edad de un grupo de mujeres al contraer matrimonio, Mendoza, 2005 60 55 50 45 40 35 30 25 20 Me = 28.5 25%-75% 15 10 Var1 En el gráfico podemos observar la asimetría de la distribución ya que la caja no se encuentra en el centro del recorrido de la variable. La patilla superior es más larga que la inferior a la caja. La media (29.5) se ha alejado de la mediana (28.6) por los valores más elevados (52 y 54) que marcan el alargamiento de la variable hacia arriba del gráfico. El Mo (27) se encuentra en la caja debajo de la mediana ya que el valor más común es 27, menor a la media y la mediana. 82 Lidia C. Diblasi MEDIA, MEDIANA Y MODA: ¿CUÁL MEDIDA ELEGIR? “La moda es aplicable para cada una de las cuatro escalas de medición. Sólo la moda tiene significado para variables categóricas como afiliación política, afiliación religiosa, especialidad académica u ocupación. Sin embargo, para fines inferenciales, la moda tiene una desventaja distintiva: la moda de una muestra no es una estimación muy confiable de su moda de población a menos que el tamaño de la muestra aleatoria sea extremadamente grande. La confiabilidad en estadística representa la precisión con la cual la estadística estima el parámetro de población correspondiente. Establecido de forma diferente, hay un gran error de muestreo asociado con la moda de la muestra; el error de muestreo es la diferencia entre el estadígrafo de la muestra y el parámetro de población correspondiente. La mediana de la muestra es más confiable (es decir, tiene un error de muestreo menor) que la moda de la muestra; la media de la muestra tiene un error de muestreo menor que la moda o la mediana, lo cual es una razón del porqué tiende a ser preferida para fines inferenciales” (Hopkins, K; Hopkins,B; Glass, G. 1997; 44) MEDIDAS DE POSICION A semejanza de la Mediana que divide a la distribución de una variable en dos partes iguales, los cuantiles son medidas de posición o localización porque dividen a la distribución en partes iguales. Los más usados son los cuartiles: la dividen en cuatro; los deciles, en diez y los percentiles en cien partes iguales. Cuartiles: son valores de la variable que dividen al conjunto ordenado de datos en cuatro partes que contienen la misma cantidad de casos. El cuartil primero (Q1) es el valor de la variable que divide al conjunto ordenado de valores en dos partes, dejando un 25% de valores menores que él y un 75% de valores mayores. 83 Lidia C. Diblasi El cuartil segundo (Q2) es el valor de la variable que divide el conjunto ordenado de valores en dos partes, dejando un 50% de los valores menores que aquel valor, y un 50% de valores mayores que él. Por lo tanto, Q2 = Me. El cuartil tercero (Q3) es el valor de la variable que divide el conjunto ordenado de valores en dos partes, dejando un 75% de valores menores que él y un 25% de valores, mayores. Cómo calcularlo: se ordenan los valores correspondientes a todas las unidades de análisis de menor a mayor (o viceversa) y se determina por simple recuento el valor que divide al conjunto total en dos partes, de manera que: Para definir Q1 quede comprendida la cuarta parte de los valores menores. Para definir Q2 quede comprendida la mitad de los valores menores. Para definir Q3 queden comprendidas las tres cuartas partes de los valores menores. Veamos un ejemplo: Usemos el mismo ejemplo que para calcular la Mediana. Si tenemos 12 datos y debemos dividirlos en cuatro partes iguales: 12/4 = 3 lo que significa que para el primer cuarto (25 %) quedan los tres valores más pequeños en el primer cuarto y nueve en el 75 % restante: por lo que el primer cuartil se encuentra entre los valores 7 y 8: Xi: 2; 5; 7; 8; 10; 11; 15; 16; 23; 25; 29; 30 ↓ Q1=7,5 Para el segundo cuartil (50 %) quedan seis datos más pequeños y seis más grandes que el Q2 que es igual o coincide con la Me. Xi: 2; 5; 7; 8; 10; 11; 15; 16; 23; 25; 29; 30 ↓ Q2 = 13 = Me Y en el tercer cuartil quedan nueve datos menores a él y tres mayores: 84 Lidia C. Diblasi Xi: 2; 5; 7; 8; 10; 11; 15; 16; 23; 25; 29; 30 ↓ Q3 = 24 Si los datos representan la edad de un conjunto de personas, podemos resumir diciendo que el 25 % de la distribución tiene hasta 7,5 años; que el 50% tiene hasta 13 años y que el 75 % tienen hasta 24años. Xi: 2; 5; 7; 8; 10; 11; 15; 16; 23; 25; 29; 30 ↓ ↓ ↓ Q1=7,5 Q2 = 13 Q3 = 24 Si tenemos una serie de datos ordenados con su correspondiente frecuencia, procedemos de la misma forma que para la mediana, calculando las frecuencias acumuladas y buscando en ellas el valor que contiene al 25; 50 y 75 % de los casos. Veamos un ejemplo: Usamos el ejemplo de las notas en un parcial de alumnos. Tenemos 20 notas por lo tanto si las dividimos en cuatro partes iguales, cada parte va a contener 5 valores numéricos o cinco notas: 20/4 = 5 El primer 25% = 5 lo buscamos en la primer frecuencia acumulada que lo contenga; igual para el 50% y para el 75% xi fi 2 4 5 6 7 8 9 10 1 1 1 3 4 5 4 1 Fa 1 2 3 6 10 15 19 20 85 Q1 Q2 y Me Q3 Lidia C. Diblasi La frecuencia acumulada seis contiene a las 5 primeras notas por lo que el Q1 es igual al valor de la variable 6, que en éste caso coincide con el valor de la frecuencia acumulada Q1= 6 el 25 % de las notas más bajas de los parciales fue de hasta 6 puntos. La frecuencias acumulada diez contiene al 50 % de los casos, por lo que el valor del Q2 = 7 El 50% de los alumnos obtuvo una nota de hasta 7 puntos. Y por último el 75 % se encuentra en la frecuencia acumulada 15 que corresponde al valor de la variable 8, por lo que podemos decir que Q3 = 8 El 75% de los alumnos obtuvo una nota de hasta 8 puntos. Trabajando con datos agrupados Si tenemos una variable, discreta o continua, donde los valores de la variable se presentan en forma de intervalos de clase, los cuartiles se obtienen por interpolación utilizando la siguiente fórmula: i. N/4 – Fa Qi = Li + __________ fi .w Donde: Qi: indica el cuartil en estudio. Fa: es la frecuencia acumulada hasta el intervalo anterior al que en frecuencia acumulada contiene la i-ésima parte de las unidades de análisis. fi: es la frecuencia absoluta correspondiente al intervalo que en frecuencia acumulada contiene la i-ésima parte de las unidades de análisis. w: es el tamaño del intervalo de clase que en frecuencia acumulada contiene la i-ésima parte de las unidades de análisis. Veamos un ejemplo Seguimos con el ejemplo que usamos con las medidas de tendencia central: edad al casarse un grupo de mujeres. Si observamos la fórmula vemos que lo primero que tenemos que hacer es localizar el intervalo donde se encuentra el cuartil, si calculamos el 1º : 86 Lidia C. Diblasi N/4*1= 50/4 = 12,5 Si buscamos en la frecuencia acumulada la que contienen al valor 12,5 en ese intervalo de clase se ha de encontrar el primer cuartil o el primer cuarto de la distribución. Como 12,5 lo contiene la Fa 17 quiere decir que el intervalo e clase que lo contiene es 20 a 24. Vamos a calcularlo: Qi = 20 + Intervalo xi fi Fa 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 50 - 54 17 22 27 32 37 42 47 52 8 9 11 8 6 4 2 2 8 17 28 36 42 46 48 50 12,5 − 8 .5 9 Qi = 20 + 2,5 Qi = 22,5 El 25 % de las mujeres tienen al momento de contraer matrimonio hasta 22,5 años. El gráfico de cajas nos da una visión de conjunto de la variable en estudio ya que nos informa sobre las medidas de tendencia central, posición, dispersión y forma de la distribución. Nos indica el lugar de la mediana, del primer cuartil o 25% de la distribución, del tercer cuartil o 75% de la distribución; del rango (valor menor y valor mayor del recorrido) y la simetría o asimetría de la variable según la caja se encuentre en el centro del recorrido (simétrica) o asimetría, cuando la caja se “corre” hacia uno o el otro extremo de la variable. 87 Lidia C. Diblasi Veamos el gráfico de caja resultante de nuestro ejemplo de la edad de las mujeres al contraer matrimonio. 60 55 50 45 40 35 30 25 20 15 Me = 28.5 25%-75%= (22, 35) Rango = (15, 54) 10 Edad Deciles: por extensión de la idea de mediana es posible pensar en aquellos valores que dividen al conjunto total en diez partes iguales. Su definición y forma de cálculo son similares a los cuartiles. i. N/10 – Fa Di = Li + __________ fi .ω Por ejemplo para calcular el decil 4, debemos hacer N/10*4 = 20. Este valor se encuentra contenido en la Fa = 28 que corresponde al intervalo 25-29 20 – 17 D4 = 25 + __________ 11 .5 88 Lidia C. Diblasi D4 = 25 + 1,36 D4 = 26,36 El 40% de las mujeres tiene hasta algo más de 26 años. Percentiles: de manera similar a los cuartiles y deciles es posible calcular valores que dividan al conjunto total en cien partes. Su definición y forma de cálculo son similares a los deciles. Veamos un ejemplo: Calculamos el percentil 65 que es aquel valor que deja por debajo suyo al 65% de los datos que son menores e iguales que él y, por encima, al 35% de los valores mayores que el percentil 65. Seguimos con los mismos datos de las mujeres: i. N/100 – Fa Pi = Li + __________ . ω fi 50/100*65 – 28 P65 = 30 + __________ . 5 8 50/100*65 – 28 P65 = 30 + __________ . 5 8 P65 = 30 + 2,81 P65 = 32,81 El 65 % de las mujeres tiene aproximadamente hasta 33 años al contraer matrimonio. MEDIDAS DE DISPERSION Si estamos interesados en comparar medidas de tendencia central, necesitamos saber algo acerca de cómo están dispersos o concentrados los 89 Lidia C. Diblasi valores en los grupos estudiados. Una medida de tendencia central sola no proporciona generalmente una descripción satisfactoria de un conjunto de datos. Es importante tener una medida de la forma en que los valores individuales se desvían del promedio. A esta clase de medidas se las conoce como medidas de variabilidad. El concepto de variabilidad tiene como sinónimo al de dispersión. Si queremos dar una definición podemos decir que: las medidas de dispersión son parámetros que miden la forma en la cual los valores tienden a extenderse alrededor de un valor de tendencia central. El rango: la medida más simple de variabilidad es el rango, que es la diferencia entre el valor máximo y el mínimo de un conjunto de datos. Tiene un valor limitado ya que solamente toma en cuenta los valores extremos de un conjunto de datos y no da ningún indicio sobre la forma como varían los valores en el interior del intervalo. Como vimos en los capítulos anteriores, se calcula restando al valor mayor de la variable el valor menor. Veamos un ejemplo: El rango de la variable “edad de las mujeres al contraer matrimonio”, donde el valor más pequeño es 15 años y el más elevado es de 54 años es: R = v. máximo – v. mínimo R = 54 – 15 R = 39 El rango de la variable edad de las mujeres al contraer matrimonio es 39 La varianza: es el promedio de las desviaciones elevadas al cuadrado, con respecto de la media del conjunto de datos. Se obtiene restando a cada uno de los valores de la variable la media del conjunto de datos, elevando al cuadrado cada una de las diferencias resultantes sumándolas y dividiendo este resultado por el número total de valores. Elevamos al cuadrado los desvíos de cada valor de la variable respecto a la media para evitar que se anulen los datos ya que, como vimos en las propiedades de la media, si sumamos los desvío nos da cero (0). 90 Lidia C. Diblasi Si reunimos esto en una fórmula tenemos: N Σ (x – x ) i σ2= i=1 2 ______ N Cuando trabajamos con una muestra usamos la siguiente fórmula: n s 2= Σ (x – x ) i i=1 2 ______ n–1 El denominador n – 1 nos da una medida más útil para los propósitos inferenciales como veremos más adelante. Cuando trabajamos con series con frecuencia las fórmulas a usar serán: N σ2= Σ (x – x ) . f i 2 i _ i=1 _________ cuando trabajamos con la población N Σf i=1 i n Σ (x – x ) . f i s2= i=1 2 i _ cuando trabajamos con la muestra n Σf i=1 i No vamos a dar un ejemplo de varianza ya que cuando sacamos la raíz cuadrada de la varianza, para volver a la unidad de medida original de la variable, obtenemos lo que conocemos con el nombre de desviación típica, con la cual sí vamos a trabajar. 91 Lidia C. Diblasi La desviación típica o standard: es la raíz cuadrada positiva de la varianza se denomina desviación típica y la podemos definir como la medida de dispersión que nos proporciona un promedio de los desvíos de la variable respecto a la media aritmética. Su fórmula de cálculo es: N Σ (x – x ) 2 i σ = √ i=1 _________ N N Σ (x – x) . f 2 i σ = √ i=1 i _________ N Σf i=1 i Propiedades de la desviación típica: 1. De todas las desviaciones típicas, la mínima es aquella que se calcula con respecto a media aritmética. 2. Para distribuciones normales resulta que: a) el 68,26% de los valores están comprendidos en el intervalo definido por la media aritmética menos una vez la desviación típica y la media aritmética más una vez la desviación típica. b) el 95,45% de los valores están comprendidos en el intervalo definido x – 2σ y x + 2σ . c) el 99,73% de los valores están comprendidos en el intervalo definido x – 3σ y x + 3σ . 92 Lidia C. Diblasi 3. Si dos conjuntos de N1 y N2 valores respectivamente tienen varianzas σ21 y σ22 respectivamente y la misma x, entonces la varianza combinada de ambas está dada por: σ2 = N1σ21 + N2σ22 _____________ N1 + N2 Veamos un ejemplo: Si tenemos un conjunto de datos pequeño como: Xi : 1; 3 ; 5; 7; 9 Seguimos los siguientes pasos para calcular la desviación típica: 1- se calcula la media o promedio de la distribución 2- se obtienen los desvíos de cada valor de la variable respecto a la media 3- se elevan los desvíos al cuadrado 4- se suman todos los resultados 5- se divide la suma por la cantidad de casos, y 6- se calcula la raíz cuadrada del resultado. xi xi - x (xi – x)2 1 -4 16 3 -2 4 5 0 0 7 2 4 9 4 16 ∑ = 25 ∑ = 0 σ= 40 = 2,83 5 93 40 Lidia C. Diblasi σ= 2,83 Si la variable que estamos trabajando fuese edad podríamos decir que 2,83 años es lo que se desvían las edades de este grupo respecto al promedio: 5 años. Cuando trabajamos con más de un grupo es muy importante acompañar la media con la desviación típica, ya que nos permite comparar la variabilidad que hay en cada uno de los grupo. Veamos un ejemplo: Los datos que tenemos a continuación corresponden a alumnos ingresantes 2008 Carrera Media Sociología 22.49 Cia. Políticay Adm. Pública 21.48 Trabajo Social 20.60 Comunicación Social 18.79 Desv. Típica 8.11 7.56 6.57 1.59 Si analizamos los resultados del cuadro, podemos observar que, si bien los promedios de edades de los alumnos al ingresar a la facultad de Ciencias Políticas y Sociales, de la UNCuyo, no son muy diferentes, sin embargo las desviaciones típicas si lo son. Las edades de los alumnos de Sociología están mucho más dispersas respecto a la media que la de las otras carreras. En el otro extremo la carrera de Comunicación Social es la más homogénea, en cuanto a las edades, que cualquier otra carrera, ya que su dispersión es muy pequeña y no parece haber valores extremos. En cambio Sociología tiene valores muy extremos que “empujan” la media hacia las edades mayores y por eso su dispersión es muy grande. Como tenemos los datos sin agrupar y dispuestos en una serie simple hemos usado, para el cálculo del desvío, la fórmula “serie simple”, sin frecuencia. Cuando trabajamos con una “serie con frecuencia” o “datos agrupados” en clases usamos la fórmula siguiente: 94 Lidia C. Diblasi N Σ (xi – σ = √ i=1 x )2. fi _________ N Σf i=1 i Vamos a calcular el desvío típico siguiendo con el ejemplo de la edad de las mujeres al casarse. Recordemos que los pasos que tenemos que seguir son: 1- Calcular los desvíos: restar la media a cada valor de la variable o punto medio de cada intervalo de clase. 2- Elevar los desvío al cuadrado 3- Multiplicarlos por la frecuencia correspondiente a cada valor de la variable o a cada clase 4- Sumar el resultado de las multiplicaciones, 5- Dividir el resultado de la suma por el total de las frecuencias 6- Sacar la raíz cuadrada. Intervalo xi fi (xi - X) 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 50 - 54 17 22 27 32 37 42 47 52 8 9 11 8 6 4 2 2 -12.5 -7.5 -2.5 2.5 7.5 12.5 17.5 22.5 (xi - X)² (xi - X)² *fi 156.25 56.25 6.25 6.25 56.25 156.25 306.25 506.25 1250 506.25 68.75 50 337.5 625 612.5 1012.5 Siguiendo la fórmula, calculamos σ² y σ (la x de este grupo es 29,5 años) σ² = 4462.25 50 σ² = 89.25 95 Lidia C. Diblasi σ = 89,25 σ = 9.44 En promedio las edades de las mujeres al casarse se dispersa de la media en 9,44 años. Coeficiente de variación: es una medida de dispersión relativa. Generalmente se da en porcentaje y nos dice que porcentaje de la media aritmética es un desvío tipo. σ CV = ___ x Observaciones para su uso: 1. Solo se puede utilizar con escalas de razón. 2. No tiene sentido cuando la media es cero. Veamos el ejemplo de los promedios de edad de los alumnos ingresantes a la facultad de Ciencias Políticas y Sociales de la UNCuyo en el año 2008, Carrera Sociología Cia. Políticay Adm. Pública Trabajo Social Comunicación Social Media 22.49 21.48 20.60 18.79 Desv. Típica 8.11 7.56 6.57 1.59 Vamos a calcular los coeficientes de variación para las cuatro carreras: CV (Sociología) = σ 8.11 ___ = ____ x = 0.36 22.49 96 36% Lidia C. Diblasi CV (Cia. Política) = σ 7.56 ___ = ____ σ 6.57 ___ = ____ x CV (Comun. Social) = 35% 21.48 x CV (Trabajo Social) = = 0.35 = 0.32 20.60 σ 1.59 ___ = ____ x 32% = 0.085 8.5% 18.79 Si bien ya habíamos visto la diferencia en la carrera de Comunicación Social cuando analizamos las desviaciones típicas de las cuatro carreras, con el Coeficiente de Variación se puede apreciar muy bien las diferencias entre las otras tres carreras y la de Comunicación. Es indudable que el grupo de alumnos que ingresó a ésta carrera en el año 2008 es muy homogéneo en cuanto a la edad. Mientras que en las otras carreras la variabilidad es muy semejante. Ello significa que las distribuciones son sesgadas a la derecha porque poseen ingresantes con edades bastante mayores a la moda que es 18 a 19 años, edad en que generalmente se concluyen los niveles medios de educación. Medidas de las formas de la distribución Repasemos nuevamente las formas de las distribuciones que ya vimos en el capítulo I teniendo ahora eb cuenta las medidas de Tendencia Central ylas de dispersión. Estas formas de la distribución hacen referencia a cómo están distribuidos los valores de una variable a lo largo de su recorrido dando diversas formas a la curva de frecuencias. Se las conoce con el nombre de asimetría o sesgo, a unas y curtosis, a las otras. 97 Lidia C. Diblasi Asimetría o sesgo: Si la curva de frecuencias tiene una cola más larga que la otra, se dice que la distribución es asimétrica o sesgada. Una distribución simétrica es aquella donde los valores están distribuidos por igual a ambos lados de la media. En cambio si la distribución tiene una cola más larga hacia la derecha, es porque hay valores extremos elevados muy alejados a la media. Supongamos que estamos en un cumpleaños de un niño que cumple 8 años, están todos sus amigos, compañeros de escuela que tienen aproximadamente la misma edad, pero también están sus padres y dos abuelos. Imaginemos que hay 20 niños entre 7 y 9 años, sus padres de 32 años y sus abuelos de 64 y 65 años. Estamos en presencia de una distribución asimétrica positiva. La moda y la mediana estarán entre los siete y nueve años. La media, en cambio, se corre hacia el lado de los valores más elevados y se aproxima a los quince años. En este caso la distribución es asimétrica positiva. Si la curva tiene la cola de la izquierda más larga es porque hay valores extremos más pequeños que la media, estamos en presencia de una asimetría negativa. Pensemos por ejemplo, en el caso del cumpleaños de la abuela, 65 años, que está rodeada de sus amigas y llega una hija (35 años) con sus dos pequeños nietos (2 y 7 años). La media se corre hacia la izquierda del centro por estos valores extremos Cuando el coeficiente de sesgo o asimetría es igual a cero, la distribución es simétrica. Cuando la distribución es asimétrica positiva, su valor es mayor que cero, y si es asimétrica negativa su valor es menor que cero. Un valor superior a 0.8 (positivo o negativo) indica que la asimetría de la variable es importante. (Cea D`Ancona, M.A. 2001; 330); 98 Lidia C. Diblasi Curtosis: Se refiere a las distribuciones simétricas y nos informa sobre la mayor o menor concentración de valores alrededor de la media. Si los valores están muy concentrados, la distribución será puntiaguda, respecto a la normal, es una distribución leptocúrtica, como vimos en el capítulo I y ello significa que la media es una medida muy representativa del conjunto de datos Si los valores están muy dispersos respecto de la media, la distribución es platocúrtica y la media no es una medida representativa del conjunto de los valores. Si los valores están distribuidos alrededor de la media, sin una gran dispersión la curva será mesocúrtica, en éste caso la media es representativa del grupo. Cuando el coeficiente de curtosis es igual a cero, la distribución es mesocúrtica. Cuando es mayor la curva es leptocúrtica y cuando es menor es platocúrtica. 99 Lidia C. Diblasi Ejercicios propuestos 1- Con los datos que tiene a continuación que representan la cantidad de horas de estudio mensuales de los alumnos que ingresan a la universidad, calcular: a- media b- desviación típica. y c- decil 70 Interpretar los resultados Horas estudio 5-9 10 - 14 15 - 19 20 - 24 25 - 29 Fi 15 18 9 5 2 2- Con los datos que tiene a continuación que representan el crecimiento anual de un grupo de niños de una determinada edad, calcular: a- Cuartil tres , b- Media y c - desviación típica. Crecimiento en cm. 3-4 5-6 7-8 9 - 10 11 - 12 fi 5 8 10 15 12 Interpretar los resultados 3- En los siguientes casos: Dónde ubicaría la media aritmética, la mediana y el modo y qué tipo de asimetría tendrían estas distribuciones?. a- Media = 0,20 Mediana = 0,80 y el Modo = 0,90 b- Media = 16; Mediana = 16,80 y Modo = 19,20 c- Media = 23,5 Mediana = 23,8 y Modo = 23,8 Dibújelas 100 Lidia C. Diblasi 4- Un centro de juegos electrónicos del Gran Mendoza quiere estudiar la edad de los asistentes por día: Edad cantidad de personas 4 8 12 18 13 7–8 9 - 10 11 - 12 13 - 14 15 - 16 a- Calcular: a- Cuartil 1; b- Mediana, c- Percentil 75 b- Realice un gráfico de caja c- Interprete todos los resultados y diga cuáles son los límites del 50 % central de la distribución . 5Los siguientes datos representan a tres grupos distintos de amigos cuyas edades son: Grupo I Grupo II Grupo III 24 – 23– 12 –19 - 29 – 20 - 23 34 – 33– 22 –19 - 19 – 20 - 23 42 – 34 –27 –37 – 32 – 34 -37 a- Calcule Media aritmética, Modo, Mediana y Desviación Típica b- Analice las diferencias entre ambos grupos usando el Coeficiente de Variación. c- Realice un diagrama de tallos y hojas para cada grupo. d- Qué comentarios puede hacer de los grupos con toda la información obtenida. 6- Con los datos que tiene a continuación que representan el peso de los niños al nacer registrados durante un mes en un hospital público:, a- Calcular: a- media aritmética, b- mediana, c- Modo y d- Desviación típica b- Diga solamente cómo calcularía el 40 % central de esta distribución. c- Realice un gráfico apropiado. d- Haga alguna lectura interpretativa del gráfico. 101 Lidia C. Diblasi Peso en kg Fi 0,000 – 0,800 0,800 - 1,600 1,600 – 2,400 2,400 – 3,200 3,200 – 4,000 4,000 - 4,800 8 22 9 6 4 1 7- Con los datos que tiene a continuación que representan los kilogramos mensuales de pan consumidos por un grupo de familias calcular: a) Media, Mediana, Modo y Desviación típica. b) Explique solamente cómo calcularía el 60 % central de esta distribución. Kg. 5-9 10 - 14 15 - 19 20 - 24 25 - 29 Fi 2 7 15 16 6 9- En la siguiente serie que representa la cantidad de integrantes por familia de una comunidad barrial del Gran Mendoza, Calcular: a- dos cuartiles, b- dos deciles y c- dos percentiles Integrantes por flias. 1 2 3 4 5 6 7 8 9 10 cantidad de flias. 5 12 19 38 45 27 12 4 1 3 10- Dos vendedores de un mismo producto tienen el siguiente promedio de venta: Vendedor A: 800 productos mensuales con un desvío de 50. Vendedor B: 1.000 mensuales con un desvío de 150 ¿Cuál de los dos vendedores parece más constante en las ventas? ¿Porqué? 11- Si un grupo de estudiantes tiene un promedio de 6 puntos en un parcial con una desviación de 0.25 puntos, y otro grupo tiene un promedio de 7.5 puntos 102 Lidia C. Diblasi con una desviación de 0.25 puntos, ¿qué grupo de estudiantes tiene menor variabilidad? ¿Porqué? 12- En una unidad académica, hay mensualmente en promedio 20 docente con licencias por distintos motivos, con un desvío de 3 docentes. En otra unidad académica, el promedio es de 12 docentes con un desvío de 6. ¿Qué grupo es más heterogéneo en sus ausencias? ¿Porqué 103 Lidia C. Diblasi Bibliografía consultada: Ambrosi, Hugo Oscar, “La verdad de las Estadísticas. Aprender con los datos” Lumiere, Buenos. Aires, 2008 Bancroft, Huldah, "Introducción a la Bioestadística", EUDEBA Baranger, Denis, “Construcción y análisis de datos” Ed. Universitaria, UNM, Posadas, 1999 Blanch, Nidia y Joekes, Silvia: “Estadística Aplicada a la Investigación” Nódulos 3 y 4- Curso de posgrado; Fac. de Ciencias económicas, Universidad Nacional de Córdoba, 1994 Box, G.E.P.; Hunter, William; Stuart Hunter, J. “Estadística para investigadores. Introducción al diseño de experimentos, análisis de datos y construcción de modelos” Ed. Reverté, México, 2005 Cea D`Ancona, María Ángeles, “Metodología Cuantitativa. Estrategias y Técnicas de Investigación Social” Ed. Síntesis Sociología, Madrid, 2001. Daniel, Wayne: “Estadística con aplicaciones a las Ciencias Sociales y a la Educación”, McGraw Hill latinoamericana, S.A. Bogotá, Colombia. 1981 García Ferrando, Manuel: Socioestadística. “Introducción a la estadística en sociología”, Alianza Universidad Textos, Madrid, 1992 Hernandez Sampieri, R.; Fernandez Collado, C.; Baptista Lucio, P. “Metodología de la Investigación” Mc Graw Hill, Colombia 1994 Hopkins, kenneth; Hopkins, B.R.; Glass, Gene: “Estadística básica para las Ciencias Sociales y del Comportamiento” Prentice-Hall Hispanoamérica, S.A., México, 1997 Spiegel, Murray, " Estadística", Serie de Compendios Shaum, McGraw Hill Interamericana de México S.A.,1994 Instituto Nacional de Estadísticas y Censos, Encuesta Permanente de Hogares, Ministerio de Economía, Gran Buenos Aires Octubre de 1997. Diblasi, Lidia y Romagnoli, Ricardo, "Medidas de tendencia central y de variación", 1991.Apuntes de cátedras. Mimeo. 104