Estadística Descriptiva ESTADÍSTICA DESCRIPTIVA Sesión No. 4 Nombre: Estadística descriptiva Contextualización Como se analizó en la sesión anterior, una parte fundamental de la Estadística es la organización de los datos, esta se puede llevar a cabo a través de la realización de tablas de datos agrupados, el conocimiento de la construcción de estas tablas es imprescindible para la correcta organización o para la creación de representaciones graficas de la información. Al terminar esta sesión deberás de conocer los pasos para la conformación de una tabla de datos agrupados. 1 ESTADÍSTICA DESCRIPTIVA Introducción al Tema Conociendo la importancia de la organización de datos para los estudios estadísticos, sabemos que una de las herramientas más utilizadas es la creación de tablas que nos sirvan para agrupar los datos en forma ordenada. En la sesión anterior se abordaron los pasos iniciales en la construcción de una tabla de grupo de datos, ahora darás continuidad a la construcción de dicha tabla estudiando los procedimientos para determinar los intervalos de clase, sus límites, su frecuencia y las respectivas marcas de clase. 2 ESTADÍSTICA DESCRIPTIVA Explicación II.2 Distribución de frecuencias Retomando el ejemplo de la bebida de la sesión anterior, para el cual se obtuvo una muestra de 100 personas de las que se investigó su edad, se ordenaron los elementos de la muestra e hicieron cálculos para agruparlos en cinco categorías denominados intervalos de clase. Recordemos que, aplicando la fórmula correspondiente, se obtuvo la longitud c de cada clase, que en este caso tuvo un valor igual a cinco. Cada intervalo de clase queda definido por valores numéricos llamados límites, que indican su comienzo y su final. A estos límites se les conoce como límites de clase y deben calcularse para cada uno de los intervalos de clase. Para construir el primer intervalo de clase, se toma como valor inicial el menor de los datos de la muestra, que en este caso corresponde al valor cinco. Dicho valor marca el límite inferior de clase (o valor en donde comienza el intervalo de clase). Para determinar el valor en el que termina el intervalo, se suma al valor inicial (5) la longitud c del intervalo (5), con lo que se obtiene el valor 10. Ambos valores constituyen los límites del primer intervalo de clase, en donde 5 corresponde al límite inferior de clase y 10 al límite superior. En consecuencia, este primer intervalo de clase comprenderá a todas las edades o valores de la muestra que sean mayores o iguales a 5 años pero menores de 10, lo que se expresa con la siguiente notación: [5,10) La expresión anterior se conoce como intervalo cerrado por la izquierda y abierto por la derecha (denominado de forma general intervalo semi-cerrado), lo que significa que los elementos que formarán parte del intervalo son aquellos mayores o iguales al valor que se encuentra a la derecha del corchete, pero menores al valor que se encuentra a la izquierda del paréntesis. Para determinar el segundo intervalo de clase, se toma el límite superior de clase del primer intervalo (10) como límite inferior de clase. Asimismo, a éste se le suma la longitud del intervalo, esto es: 10 + 5 = 15. Este valor es el límite superior de clase del 3 ESTADÍSTICA DESCRIPTIVA segundo intervalo. Así, este segundo intervalo de clase comprenderá a todos los valores de la muestra que sean mayores o iguales a 10 pero menores a 15, lo que se expresa por: [10,15) Para el tercer intervalo se procede de forma análoga a como se determinaron los dos primeros: se considera el límite superior del segundo intervalo (15) como el límite inferior de clase del tercer intervalo. A éste se le suma la longitud c del intervalo (15 + 5 = 20) para determinar el límite superior de clase, con lo que se obtiene el siguiente intervalo: [15,20) El proceso se repite hasta completar las cinco categorías o intervalos de clase propuestas para el ejemplo: [5,10) [10,15) [15,20) [20,25) [25,30] Note que el último intervalo de clase [25,30], es cerrado por la izquierda y por la derecha, ya que si no fuera así quedarían fuera de él los valores iguales a 30 de nuestra muestra. Debe resaltarse que los intervalos obtenidos de acuerdo al proceso anterior se determinan para que ningún dato de la muestra quede fuera de alguna categoría o intervalo y para que ninguno pertenezca a más de un intervalo. Una vez definidos todos los intervalos de clase y sus respectivos límites, se determina la frecuencia de clase, que es el número de casos u observaciones de la muestra que caen dentro de cada intervalo. Para ello, se revisa cada elemento y se realiza el conteo del número de elementos de la muestra que caen en cada intervalo. Cada elemento pertenecerá al intervalo en cuestión únicamente si su valor es igual o mayor que el expresado en el límite inferior de clase y menor que el del límite superior del intervalo. La frecuencia de clase se denota por f1, que significa el número de elementos del intervalo i. En nuestra muestra, entrarán en el primer intervalo únicamente los elementos que sean mayores o iguales a 5 y que sean menores que 10, es decir aquellos valores que pertenezcan al intervalo [5,10). Observamos entonces que los valores de la muestra que cumplen esta condición son: 5, 6, 6, 9 y 9, es decir, cinco elementos. Este valor corresponde a la frecuencia del primer intervalo de clase, es decir, f1 = 5. Repitiendo 4 ESTADÍSTICA DESCRIPTIVA este procedimiento para todos los elementos de la muestra, se obtienen las siguientes frecuencias: f1 = 5 f2 = 10 f3 = 30 f4 = 40 f5 = 15 Que se resumen en la siguiente tabla: Como es de esperarse, la suma de las frecuencias de cada intervalo de clase es igual al número total de elementos de la muestra, esto es: , , El siguiente paso es calcular las marcas de clase, que se denotan por el símbolo 1 x el cual significa “la marca de la clase i”. Una marca de clase corresponde al punto medio de cada intervalo de clase. Para determinar las marcas de clase, se suman el límite inferior de clase y su respectivo límite superior, y el resultado obtenido se divide entre dos. Para nuestra muestra, las marcas se calculan mediante las siguientes operaciones: Resumiendo: 5 ESTADÍSTICA DESCRIPTIVA Conclusión Para el correcto desarrollo de las tablas de datos agrupados es necesario tener conocimiento y calcular diversos elementos como: los intervalos de clase, que son las categorías en las que se agrupan los elementos de la muestra, los límites de clase, que son los limites inferior y superior de cada intervalo de clase. Al determinar estos dos datos, es necesario conocer también la frecuencia y marca de clase, que son el número de casos de la muestra que se comprenden dentro de cada intervalo y el punto medio de cada intervalo respectivamente; conocimiento que debes haber adquirido al término de esta sesión. En la siguiente sesión conocerás los temas correspondientes a representaciones graficas utilizadas en la Estadística Descriptiva. las 6 ESTADÍSTICA DESCRIPTIVA Actividad de Aprendizaje Con el fin de reafirmar los conocimientos adquiridos en esta sesión, deberás realizar la siguiente actividad. Retomando el ejercicio de la sesión anterior, determinarás: Intervalos de clase Frecuencia Marcas de clase Teniendo estos datos realizarás su tabla con los elementos de la muestra. Sube los resultados a la plataforma y recuerda que esta actividad equivale al 5% de tu calificación final. 7 ESTADÍSTICA DESCRIPTIVA Referencias Mendenhall, W. y T. Sincich (1997). Probabilidad y estadística para ingeniería y ciencias. Cuarta edición. México: Prentice Hall. Santesmases, M. (2001). Diseño y análisis de encuestas en investigación social y de mercados. Madrid: Pirámide. Spiegel, M. y L. Stephens (2001). Estadística. México: McGraw Hill. Ulloa, V. y V. Quijada (2006). Estadística aplicada a la comunicación. México: UNAM. 8