DATOS AGRUPADOS El criterio de agrupación de datos corresponde a un análisis semejante al elaborado para variables cualitativas, es decir, los datos se pueden organizar en tablas de frecuencias con o sin intervalos, en este caso las columnas de las frecuencias acumuladas si tienen interpretación sin importar que la variable sea discreta o continua. DISTRIBUCIÓN DE FRECUENCIA SIN INTERVALOS Es el registro de todos los valores de la variable y sus frecuencias asociadas como frecuencia absoluta, relativa, absoluta acumulada, relativa acumulada y la porcentual. Por ejemplo: a continuación se muestra una distribución para los salarios de 12 trabajadores de una empresa: 400.000 450.000 1.200.000 500.000 750.000 400.000 450.000 1.200.000 1.200.000 500.000 400.000 450.000 La distribución de fecuencia es: Salario f fr F Fr % En miles 400 3 0,25 3 0,25 25 450 3 0,25 6 0,5 25 500 2 0,167 8 0,667 16,7 750 1 0,083 9 0,75 8,3 1.200 3 0,25 12 1 25 Total 12 100 El diagrama de barras es el siguiente: 3,5 3 2,5 2 Series1 1,5 1 0,5 0 400 450 500 750 1.200 Total 1. DISTRIBUCIÓN DE FRECUENCIAS CON INTERVALOS En algunas situaciones los datos recogidos presentan frecuencias muy pequeñas. Entonces es útil construir una distribución de frecuencias que permita agrupar los datos por intervalos que tengan la misma longitud. Mediante el siguiente ejemplo se muestra el procedimiento para construir dicha tabla. Un nadador de 200m registra el tiempo de sus últimos 14 entrenamientos, los resultados en segundos son: 125 120 130 135 125 115 116 122 117 115 132 121 133 119 Para construir la distribución de frecuencias con intervalos se realiza el siguiente procedimiento: Primero, se encuentra la longitud de la distribución de la frecuencia que recibe el nombre de rango R y se calcula restando el dato mayor con el dato menor: R = 135 – 115 = 20. Segundo, se determina el número de intervalos que va a tener la tabla. Aunque este puede ser determinado por la persona, un dato muy aproximado es la raíz cuadrada del total de los datos n y aproximar su resultado al entero más cercano. Como n = 14, la raíz de 14 es 3,72 ≈ 4. Tercero, se halla la longitud de cada intervalo realizando el cociente entre el rango y el número de intervalos, es decir, R/número de intervalos: 20/4 = 5. Finalmente, se realiza la tabla de distribución de frecuencias. En esta tabla la primera columna corresponde a los intervalos. Estos intervalos tienen un límite inferior cerrado [115 – 120), es decir, toma el dato 115 y un límite superior abierto donde no se toma el 120, excepto en el último intervalo donde ambos límites son cerrados. En el primer intervalo el límite inferior es el dato menor de la muestra 115 y el límite superior resulta de sumar el inferior más la longitud de cada intervalo, en el ejemplo: (115 + 5). Para el segundo intervalo, se toma el límite superior del primer intervalo como límite inferior del segundo, luego se obtiene el límite superior de la misma manera que en el primero, y así sucesivamente hasta tener el número total de intervalos, donde el límite superior del último intervalo ha de ser cerrado y coincide con el dato más grande de la muestra. Las frecuencias fr, F, Fr, % se calculan de la misma manera que en la distribución sin intervalos. Se agrega una nueva columna con respecto a la distribución anterior, esta se llama marca de clase, m que es el punto medio de cada intervalo, es decir, es el punto que representa a todos los datos que pertenecen al intervalo. Se calcula sumando los dos límites de cada intervalo y dividiendo entre dos. Es decir: m = (limInf + limSup)/2 La distribución para estos datos es: Tiempo (s) f fr F Fr % m [115 – 120) 5 0,357 5 0,357 35,7 117,5 [120 – 125) 3 0,214 8 0,571 21,4 122,5 [125 – 130) 2 0,143 10 0,714 14,3 127,5 [130 – 135] 4 0,286 14 1 28,6 132,5 Total 14 1 100