UNIDAD 1 Estadística descriptiva Objetivos Al finalizar la unidad, el alumno: • • • • explicará el concepto de estadística y otros relacionados (muestra, población, estadístico, parámetro, etcétera) describirá lasdiferentestécnicas para seleccionar una muestra calculará las principales medidas centrales y de dispersión de un conjunto de datos no agrupados, ya sea muestrales o poblacionales dado un gran conjunto dedatos, utilizaráy construirá las clases de frecuencia y sus gráficos para analizar la distribución de dichos datos Introducción A lo largo de su existencia el ser humano ha llevado a cabo análisisde una gran cantidad de datoso información, referentes a los problemas o actividades de sus comunidades. Por ejemplo, desde comienzos de la civilización se hacían representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o cosas. Hacia el año 3000 a. C., los babilonios usaban pequeñas tablillas de arcilla para recopilar datos sobre la producción agrícola y los géneros vendidos o cambiados mediante el trueque. Mucho antes de construir las pirámides, los egipcios analizaban los datos de la población y la renta del país. Otro ejemplo de recopilación y análisis de datos es el del imperio romano, cuyo primer gobierno, al verse en la necesidad de mantener control sobresus esclavosy riquezas, recopiló datossobre la población, superficie y renta de todos losterritorios bajo su control. Siguiendo con la historia de la recopilación de datos, a mediados del primer milenio, por el gran crecimiento de las poblaciones y para poder tener control sobre éstas, se comenzaron a efectuar censos poblacionales, como los de la Edad Media en Europa. Por ejemplo, los reyes caloringios1 Pipino el Brevey Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los años 758 y 762, respectivamente. Conforme pasaba el tiempo, la recopilación y análisis de datos comenzaban a tener otro fin además de los censos y conocimiento de diferentes propiedades. Por ejemplo, en Inglaterra a principiosdel siglo XVI se realizó el registro de nacimientosy defunciones, con el cual en 1662 apareció el primer estudio de datospoblacionales, titulado Observationson theLondon Billsof Mortality (“Comentarios sobre las partidas de defunción en Londres”). Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en Alemania, realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad. En el siglo XIX, con la generalización del método científico para estudiar todos los fenómenos de las ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir la información a valores numéricos para evitar la ambigüedad de las descripciones verbales. 1.1 Estadística Como se explicó, el ser humano tuvo la necesidad de crear una ciencia que redujera la información a valores numéricos para la mejor interpretación de los fenómenos; se le llamó estadística. Definición 1.1 La estadística es una rama de las matemáticas aplicadas que proporciona métodos para reunir, organizar, analizar e interpretar información, y usarla para obtener diversas conclusiones que ayuden a tomar decisiones en la solución de problemas y en el diseño de experimentos. 1 Carolingia también llamada Carlovingia, fue una dinastía de reyes francos que gobernaron un vasto territorio de Europa Occidental desde el siglo VII hasta el siglo X d. C.; su nombre fue tomado de su más renombrado miembro, Carlomagno. 20 Actualmentelaestadísticaesun método efectivo paradescribir con precisión losvalores de datoseconómicos, políticos, sociales, psicológicos, biológicoso físicos, y una herramienta para relacionar y analizar dichos datos. Por esta razón, la estadística se divide en diferentes ramas, entre las más aplicadas y que analizaremos están la estadística descriptiva y la inferencial. La primera de ellas se aborda en la presente unidad y será descrita más adelante, mientras que la segunda será estudiada en las unidades 9 y 10. Por ahora se verán dos conceptos fundamentales en el estudio de la estadística. 1.2 Población y muestra La materia prima de la estadística son los conjuntos de números obtenidos al contar o medir elementos. Por tanto, al recopilar datos estadísticos se debe tener especial cuidado para garantizar que la información sea completa y correcta; de este modo, el primer paso es determinar qué información y en qué cantidad se ha de reunir. Por ejemplo, en un censo es importante obtener el número de habitantes de forma completa y exacta; de la misma manera, cuando un físico quiere contar el número de colisiones por segundo entre las moléculas de un gas, debe empezar por determinar con precisión la naturaleza de los objetos a contar. Dado que la naturaleza de los fenómenos en estudio es muy variada, es necesario proporcionar una serie de definiciones referentes a los conjuntos de datos que se han de estudiar. Definición 1.2 La población es el conjunto que incluye el total de elementos o datos cuyo conocimiento es de interés particular. Cada uno de los elementos que intervienen en la definición de población es un individuo u objeto; se denominaron de esta manera, ya que originalmente el campo de actuación de la estadística fue el demográfico. Dado que la información disponible consta frecuentemente de una porción o subconjunto de la población, introducimos un segundo concepto, el de muestra de una población. Definición 1.3 La muestra es cualquier subconjunto de la población. Ejemplo 1 1. Si el conjunto de datos de interés está constituido por todos los promedios de un grupo de estudiantes de licenciatura de una universidad, cada uno de los estudiantes será un individuo estadístico, mientras que el conjunto de todos estos estudiantes será la población y una muestra podría ser el conjunto de todos los estudiantes del tercer cuatrimestre de ingeniería. 2. Si el conjunto de datos de interés está constituido por todos los promediosde los grupos de licenciatura, cada uno de los grupos será un individuo estadístico, mientras que el conjunto de todos estos grupos será la población y una muestra podría ser el conjunto de todos los grupos del tercer cuatrimestre de ingeniería. 21 3. Si se está estudiando el resultado de ciertos experimentos químicos, cada uno de esos experimentos será un individuo estadístico y el conjunto de todos los posibles experimentos en esas condiciones será la población, mientras que una muestra podría ser un conjunto de resultados experimentales posibles en ciertas condiciones. Más adelante se verá que el problema de muestreo no es tan simple, porque este concepto tiene mayor importancia dentro de la estadística inferencial; se profundizará en él en su momento. 1.2.1 Caracteres y variables estadísticas Cuando se definió el concepto población, se mencionaron sus elementos, también llamados individuos; además, en el ejemplo 1 se observó que éstos pueden ser descritos por una o varias de sus propiedades o características. Definición 1.4 El caracter de un elemento, individuo u objeto es cualquier característica por medio de la cual se Ejemplo 2 1. Si los individuos son personas, el sexo, el estado civil, el número de hermanos o su estatura son caracteres. 2. Si el individuo es una reacción química, el tiempo de reacción, la cantidad de producto obtenido o si éste es ácido o básico, son caracteres que pueden analizarse. Un caracter es cuantitativo si es posible medirlo numéricamente o cualitativo si no admite medición. Por ejemplo, el número de hermanos y la estatura son caracteres cuantitativos, mientras que el sexo y el estado civil son caracteres cualitativos. Los distintos valores que puede tomar un caracter cuantitativo configuran una variable estadística. Las variables estadísticas se clasifican en discretasy continuas. Definición 1.5 Una variable estadística es discreta sólo cuando permite valores aislados, como números enteros. Por ejemplo, la variable número dehermanostoma losvalores0, 1, 2, 3, 4 y 5. Este tipo de variables se caracterizan por obtenerse mediante un proceso de conteo (ver semejanza con las variables aleatorias discretas en la unidad 5). Definición 1.6 Una variable estadística es continua cuando admite todos los valores de un intervalo. Por ejemplo, la variable estatura, en cierta población estadística, toma cualquier valor en el intervalo 158-205 cm. Otro más es la temperatura de una persona. Este tipo 22 de variables se caracteriza por obtenerse mediante mediciones (ver semejanzas con las variables aleatorias continuas en la unidad 7). Las variable cualitativas pueden ser nominales si se trata de categorias (sexo, raza, etc.) y ordinales si implican orden (clase social, grado de preferencia). 1.2.2 Estadística descriptiva Como ya se dijo, la estadística se divide en varias ramas, una de ellas es la estadística descriptiva. Después de haber estudiado los conceptos de población y muestra es posible definirla. Definición 1.7 La estadística descriptiva es la parte de la estadística que organiza, resume y analiza la totalidad de elementos de una población o muestra. Su finalidad es obtener información, organizarla, resumirla y analizarla, lo necesario para que pueda ser interpretada fácil y rápidamente y, por tanto, pueda utilizarse eficazmente. El proceso quesigue la estadística descriptivaparael estudio de unacierta población o muestra consta de los siguientes pasos: 1. Selección de caracteres factibles de ser estudiados. 2. Mediante encuesta o medición, obtención del valor de cada elemento en los caracteres seleccionados. 3. Obtención de números que sintetizan los aspectos más relevantes de una distribución estadística (más adelante a dichos números los llamaremos parámetrospara el caso de la población y estadísticosen las muestras). 4. Elaboración de tablas de frecuencias, mediante la adecuada clasificación de los individuos dentro de cada carácter (esto lo estudiaremos más adelante en el tema “Clases de frecuencias”). 5. Representación gráfica de los resultados (elaboración de gráficas estadísticas, a las que llamaremos histogramas). 1.3 Tipos de muestreo Losespecialistasen estadística se enfrentan a un complejo problemacuando, por ejemplo, toman una muestra para un sondeo de opinión o una encuesta electoral; seleccionar una muestra capaz de representar con exactitud las preferencias del total de la población no es tarea fácil, para tal efecto existen diferentes tipos de muestreo, los más conocidos se mencionan enseguida. Muestreo aleatorio simple Este tipo de muestreo se caracteriza porque cualquier elemento de la población en estudio tiene la misma posibilidad de ser seleccionado. 23 Por ejemplo, de la población estudiantil de una universidad se puede seleccionar una muestra aleatoria de 50 estudiantes para aplicar una encuesta y obtener cierto tipo de información. En estos casos, existen distintos métodos para respetar la aleatoriedad, el más común es asignarle un número diferente a cada estudiante y luego, con la ayuda de una tabla de números aleatorios, elegir un bloque de tamaño 50 de ésta y realizar las entrevistas a los alumnos seleccionados. Muestreo estratificado En este tipo de muestreo se divide la población en grupos que no se traslapen –es decir, que no tengan elementos en común– y se procede a realizar un muestreo aleatorio simple en cada uno de los grupos. Por ejemplo, la población estudiantil de una universidad se puede dividir en grupos formados por diferentes especialidades (ingeniería industrial, ingeniería en sistemas, administración, etc.) y después de cada una de ellas se procede a seleccionar una muestra aleatoria para llevar a cabo una entrevista y obtener la información deseada. Además de los dos tipos de muestreo mencionados, existe el muestreo sistemático y el muestreo por conglomerados. El problema de muestreo es más complejo de lo que parece; para un estudio más detallado del tema, el estudiante puede consultar el libro Elementosdemuestreo, de Richard L. Scheaffer y William Mendenhall, de Grupo Editorial Iberoamérica. 1.3.1 Uso de tablas de números aleatorios Como se mencionó, las muestras aleatorias se pueden obtener a partir de una tabla de números aleatorios. Se supone que se tiene una población de mil individuos y se quiere hacer un muestreo de diez de ellos. En este caso, primero se asigna un número del 000 al 999 a cada miembro de la población y luego se elige de la tabla de números aleatorios un punto de arranque y se hace el recorrido hasta obtener el tamaño de la muestra de diez. Debido a que el tamaño de la población es mil, de los números que aparecen en la tabla se consideran sólo sus tres últimas cifras. Por ejemplo, sean los siguientes números aleatorios elegidos de una tabla. 9173061 7392108 4757975 8122135 1321499 0746897 0015542 0195093 7996818 0559605 Al elegir sus tres últimas cifras se obtienen los números que formarán la muestra: 061, 897, 108, 542, 975, 093, 135, 818, 499 y 605. Después se procede a seleccionar de la población a los individuos que les corresponden estos números. De forma similar que en el caso de las mil personas, primero se asigna un número a cada elemento de la población desde 000 hasta 649 y posteriormente se elige un bloque de números aleatorios donde las tres primeras cifras sean menores a 649. 24 1.4 Parámetros y estadísticos Los números que sintetizan los aspectos más relevantes de una distribución estadística pueden obtenerse tanto de una población como de una muestra y por consiguiente deben clasificarse: los primeros, obtenidos de la población, reciben el nombre de parámetrosy los obtenidos de una muestra se llaman estadísticos o estimadores. Los parámetros y estadísticos más comunes de la estadística descriptiva que se estudiarán en esta unidad se dividen, a su vez, en dos tipos: 1. Medidascentrales: media, mediana, moda, media geométrica, media armónica, media ponderada. 2. Medidas de dispersión: rango, varianza, desviación estándar, error estándar, coeficiente de variación, percentiles, rango intercuartil. 1.5 Medidas centrales Si el conjunto de datos numéricos de una muestra de tamaño n (o población de tamaño N) esde la forma x1, x2,. . ., xn (o para la población x1, x2,. . ., xN), nos podemos preguntar por las características del conjunto de números que son de interés. En está sección se estudiarán los métodos para describir su localización y, en particular, el centro de los datos. 1.5.1 La media Cuando una persona tiene en sus manos un conjunto de datos para analizarlos, generalmente calcula, en primera instancia, un promedio de éstos. Por ejemplo, dicha persona tiene las cantidades mensuales que ha ganado en los últimos seis meses (10 800, 9 700, 11 100, 8 950, 9 750 y 10 500) y desea conocer el valor que representa su salario promedio. En este caso, obtendrá su ingreso promedio al sumar las cantidades y dividir entre el número de meses que trabajó 10 800 + 9 700 + 11 100 + 8 950 + 9 750 + 10 500 ————————————————————————————————————= 10 133.33 6 El sueldo promedio es $10 133.33. Como el caso anterior, existe una infinidad de problemas o casos prácticos en los que de un conjunto de datos se quiere conocer un valor central que refleje la influencia que tiene cada uno de los datos en él. La medida central más propicia para tales fines se define a continuación. Definición 1.8 x1, x2,..., xn, la media muestral (promedio aritmético) o estadístico media del conjunto es el estadístico que representa el promedio de los datos simbolizado por x(x barra), y se calcula x x1 x2 xn n 1 ni n xi 1 25 De forma similar se define el parámetro media para las poblacionesfinitas. Definición 1.9 Dado el conjunto de datos poblacionales x , x ,. . ., x , se llama media poblacional o parámetro 1 2 N media del conjunto al parámetro representado por (miu o mu), y se calcula x1 x2 xN N Ejemplo 3 1 N xi Ni 1 Un fabricante de pistones toma una muestra aleatoria de 20 de éstos, para medir su diámetro interno promedio. Con la información que el fabricante obtuvo dada en centímetros, se calcula su diámetro medio 10.1 10.1 9.8 9.7 10.3 9.9 10.0 9.9 10.2 10.1 9.9 9.9 10.1 10.3 9.8 9.7 9.9 10.0 10.0 9.8 Como se trata de una muestra, se calcula su estadístico x= 1 [10.1 + 10.1 + 9.8 + 9.7 + 10.3 + 9.9 + 10 + 9.9 + 10.2 + 10.1 + 9.9 + 20 9.9 + 10.1 + 10.3 + 9.8 + 9.7 + 9.9 + 10 + 10 + 9.8] = 9.975 La mediarepresenta el valor promedio de todaslasobservacionesy por consiguiente cada uno de los datos influye de igual manera en el resultado; en ocasiones, cuando se tienen pocos datos que se alejan considerablemente del resto, el valor promedio encontrado no refleja la realidad del caso. Ejemplo 4 Se quiere calcular el sueldo promedio de los trabajadores de una fábrica, eligiendo aleatoriamente a diez de ellos, con las siguientes cantidades: Dato x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 Sueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400 Se calcula el sueldo promedio, y se tiene x= 1 [2 000 + 2 200 + 2 500 + 2 200 + 1 800 + 25 000 + 2 400 + 2 300 + 2 800 + 2 400] = 4 560 10 donde el estadístico no refleja la realidad de los datos, puesto que el sueldo de 25 000 es mucho mayor a los demás e influye considerablemente en el valor promedio. 1.5.2 La mediana Por lo expuesto al final de la subsección esnecesario presentar otro tipo de medida central en la que valoresmuy extremosos, con respecto al resto, no tengan una influencia tan marcada como en la media. A dicha medida se le conoce, debido a su naturaleza, como mediana. Definición 1.10 La mediana de un conjunto de datos es el valor medio de los datos cuando éstos se han ordenado en forma no decreciente en cuanto a su magnitud. 26 Cálculo de la mediana Dado el conjunto de datosmuestrales x1, x2,. . ., xn, la mediana muestral o estadístico mediana del conjunto se representa por x(x tilde) y se obtiene ordenando primero en forma no decreciente estos n datos, los que se renombrarán según su posición por medio de tildes de la siguiente forma x1 x2 xn Posteriormente se localiza el punto medio de los datos ordenados, con dos casos: 1. Cuando la cantidad de observaciones es impar, el valor medio del ordenamiento es el dato que se encuentre en la posición (n + 1)/ 2. 2. Cuando la cantidad de datos es par, de tal manera que resultan dos datos medios localizados en las posiciones n/ 2 y n/ 2 + 1, la mediana se considera el promedio de éstos. Finalmente, se puede resumir el cálculo de la mediana con las siguientes fórmulas xn 1, cuando la cantidad de datos es impar 2 x xn xn 2 2 1 , cuando la cantidad de datos es par 2 De forma similar se define el parámetro mediana. Dado el conjunto de datos poblacionales x1, x2,. . ., xN, la mediana poblacional o parámetro mediana del conjunto es el parámetro representando por , y se calcula xN 1 ,cuando la cantidad de datos es impar 2 xN xN 2 2 1 , cuando la cantidad de datos es par 2 Ejemplo 5 Dado el conjunto muestral de datos del ejemplo anterior, referente al sueldo promedio, se calcula su mediana. La siguiente tabla muestra el conjunto de los diez datos Dato x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 Sueldo 2 000 2 200 2 500 2 200 1 800 25 000 2 400 2 300 2 800 2 400 Ordenando los sueldos de menor a mayor y renombrándolos se obtiene Dato original Sueldo Dato ordenado x5 x1 x2 x4 x8 x7 x10 x3 x9 x6 1 800 2 000 2 200 2 200 2 300 2 400 2 400 2 500 2 800 25 000 ~x1 ~x2 ~x3 ~x4 ~x5 ~x6 ~x7 ~x8 ~x9 ~x10 27 La cantidad de datos es diez y éste es un número par, por consiguiente la mediana muestral se encuentra con el promedio de los datos ordenados en las posiciones n/ 2 y n/ 2 + 1. Es decir, en las posiciones 10/ 2 = 5 y 10/ 2 + 1 = 6 x x5 x6 2 300 2 400 2 2 2 350 En la mediana se puede observar que el valor $25 000, el cual sobresalía con respecto a todos los demás, a diferencia de la media, no influye en el resultado de la mediana. Puesto que si en lugar de $25 000 se elige $5 000 o $100 000, el sueldo medio de los diez trabajadores seguirá siendo $2 350. Por lo cual se dice que la mediana es una medida central insensible de los datos. 1.5.3 La moda Para algunos estudios es necesario encontrar el valor central de un conjunto de datos, en donde la medida de interés está basada en la repetición de éstos; por tanto, ninguna de las dos medidas analizadas es conveniente en este caso. Debido a su naturaleza, a esta medida se le da el nombre de moda y se define a continuación. Definición 1.11 La moda de un conjunto de datos es el valor que se presenta en su distribución con mayor frecuencia. La moda se simboliza por Mo para las muestras y para las poblaciones. Ejemplo 6 En la siguiente lista se muestran lascalificaciones de 20 exámenesdelingüística. de lingüística. ingüística. Secalcula Se calcula la calificación que más se repite, es decir, la moda de la distribución de las calificaciones. 5 8 9 9 8 10 9 5 10 5 6 5 10 10 8 9 7 9 5 9 Después del conteo de los datos, se tiene cinco datos con valor 5 un dato con valor 6 y otro con valor 7 tres datos con valor 8 seis datos con valor 9 cuatro datos con valor 10 Por tanto, la moda es igual a 9; ya que es la calificación de mayor frecuencia. Al calcular la moda es posible observar que es una medida completamente opuesta a la mediana en cuanto a su sensibilidad. Por ejemplo, si en el caso de las calificaciones un alumno con calificación 9 hubiese obtenido 5, la moda cambiaría a 5 (serían seis5 y cinco 9). Así que con la sola alteración de un dato cambia completamente la moda, por tanto, se dice que ésta es sumamente sensible. 28 La moda también presenta los siguientes dos problemas: 1. La moda puede no existir. Por ejemplo, se tienen las siguientes series de datos: 6, 7, 34, 4, 8 6, 3, 8, 9, 3, 8, 6 y 9 En ambas series de datos la frecuencia es la misma, es decir, no tienen moda. A los conjuntos de datos como los anteriores se les llama amodales o sin moda. 2. La moda puede no ser única. Por ejemplo, se tiene la siguiente serie de datos 6, 7, 9, 4, 8, 6, 6, 8, 9, 6, 8, 6, 9, 3, 9 y 9 En esta serie están los valores 6 y 9 como los de mayor frecuencia, ambos se repiten cinco veces. Al conjunto de datos que tiene más de una moda se le ll ama multimodal; bimodal si son dos modas, y trimodal si son tres, etcétera. 1.5.4 Otros valores medios Ya se han analizado los tres valores centrales más conocidos y utilizados en la estadística descriptiva. El primero de ellos fue el definido en la sección 1.5.1 como una media aritmética, sin embargo, existen distribuciones de datos para las cuales esta medida no es muy propicia, por lo que se definen y utilizan otro tipo de medidas centrales, la mediana y la moda. A continuación se verán otros tipos de promedios que son de utilidad en la estadística descriptiva. Valor geométrico o media geométrica La media geométrica de los datos x1, x2,. . ., xn se simboliza por MG y está definida como la raíz n-ésima del producto de las n mediciones. MG Ejemplo 7 x1 x2 xn Se calcula la media geométrica de 20 calificaciones de exámenes psicológicos MG Observación n 20 5 8 9 9 8 10 9 5 10 5 6 5 10 10 8 9 7 9 5 9 5 8 9 9 8 10 9 5 10 5 6 5 10 10 8 9 7 9 5 9 7.5446868 De la definición de media geométrica se deduce que ésta no se puede aplicar cuando algún dato valecero o la cantidad de datos es par y existe una cantidad impar negativa. 29 Valor medio armónico o media armónica La media armónica de los datos x1, x2,. . ., xn se simboliza por MA y está definida como el recíproco de la media aritmética de los recíprocos. MA 1 1 ni n 1 x 1 i 1 1 n x1 1 1 x2 n 1 x1 1 xn 1 x2 1 xn La principal aplicación de ésta es promediar las variaciones respecto del tiempo, es decir, cuando la misma distancia se recorre a diferentes tiempos. Ejemplo 8 Si se viaja de una ciudad a otra recorriendo los primeros 100 km a 80 kmph, los siguientes 100 km a 100 kmph y finalmente otros 100 km a 120 kmph, se calcula la velocidad media utilizando la mediaarmónica y se compara con las medias aritmética y geométrica. 1 MA x 1 3 MG Observación 1 1 1 1 3 80 100 120 80 100 120 3 80 100 120 97.2973 300 3 100 98.6485 Para tomar la decisión de qué media parece la más correcta, se calcula la velocidad promedio Velocidad promedio distancia total recorrida tiempo total La distancia total recorrida es igual a 100 + 100 + 100 = 300 km. El tiempo total de recorrido es 100 100 100 80 100 120 3.0833 h. Ahora se compara con la distancia total real recorrida las distancias que recorrería el automóvil con cada una de las velocidades promedio calculadas Media aritmética: 3.0833 100 = 308.33 km Media geométrica: 3.0833 98.6485 = 304.166 km Media armónica: 3.0833 97.2973 =300 km (Nótese que el mejor resultado se obtiene con la media armónica). 30 Valor medio ponderado o media ponderada Para los casos en que cada dato tiene una importancia relativa en su distribución –la cual se denomina peso–, la media correspondiente más apropiada se obtiene sumando los productos de cada dato por su peso, llamando a dicha medida media ponderada. Definición 1.12 En un conjunto de datos x , x ,. . ., x se llama pesos o ponderaciones respectivas de estos 1 2 n datos a las cantidades w , w ,. . ., w que cumplen 1 2 n a) b) wi [0,1] , para todo valor de i w1 + w2 + . . . + wn = 1 La media ponderada del conjunto de datos x1, x2,. . ., xn, con pesos respectivos w1, w2,. . ., wn, se simboliza por MP y se calcula con la siguiente fórmula: n MP wi xi i Ejemplo 9 Se calcula la calificación promedio de un estudiante. La calificación está ponderada de la siguiente forma: 10% tareas, 40% del primer examen bimestral y 50% del examen final. Las calificaciones del estudiante son 8, 9 y 4, respectivamente. La calificación está ponderada, por tanto MP = 0.1 Nota 1 8 + 0.4 9 + 0.5 4 = 6.4 En el caso de poblaciones, los parámetros correspondientes se calculan con las mismas formulas cambiando n por N. Al analizar un conjunto de datos surge una duda: ¿tener las medidas centrales es suficiente para conocer su distribución? Después de estudiar la siguiente sección esto quedará claro. Ejercicio 1 1. Calcula la media, mediana y moda del siguiente conjunto de datos 145 150 165 155 155 145 150 140 145 150 160 175 150 160 2. Calcula la media y mediana de los tiempos de llegada de seis aviones que aterrizan en un aeropuerto. Los tiempos (en minutos) son 3.5 4.2 2.9 3.8 4.0 2.8 31 3. Calcula la media geométrica del conjunto de datos del ejercicio anterior. 4. Calcula la media armónica del viaje redondo que realiza un chofer de una línea de camiones cuya ruta es de 520 km, si de ida lo recorrió por una autopista a 101 kmph y de regreso por otra a velocidad promedio de 75 kmph. 5. En una muestra de 100 pistones se encontró que 55 tenían un diámetro interno de 10.5 cm, 25 de 10.0 y el restante de 10.75. Utiliza las frecuencias relativas de los pistones para calcular la media ponderada de su diámetro interno. 1.6 Medidas de dispersión Para un análisis más completo de la distribución de los datos, el estudio de sus medidas centrales no es suficiente, puesto que en diferentes conjuntos de datos puede haber medidas centrales iguales, por tanto, no se tendría conocimiento de la forma de su distribución. Por ejemplo, se tienen dos conjunto de datos, uno contiene los valores 20, 12, 15, 16, 13 y 14, y el segundo 5, 0, 50, 17, 8 y 10; se calcula su media. Como se puede verificar en ambos casos se obtiene 15. Pero si se representan los valores en una recta, es notable que las observaciones del segundo conjunto tienen una distribución (variación) mucho mayor. Por tanto, es necesario realizar un estudio de la distribución de los datos con respecto a su valor central, es decir, se necesita un valor que indique una medida para comparar las dispersiones de datos entre diferentes conjuntos; estas medidas son valores de dispersión o variabilidad del conjunto de datos. 1.6.1 Rango Es el primer valor que nos muestra cómo están distribuidos (dispersos) los datos. El rango de las observaciones está simbolizado por r para la muestra y R para la población. El rango es una medida de variación de los datos que lo único que muestra es el tamaño o longitud del intervalo en el que los datos se encuentran distribuidos y es: Definición 1.13 El rango es igual a el valor mayor menos el valor menor de los datos. 32 Por ejemplo, para los datos muestrales de los dos conjuntosde datos anteriores • en el primer conjunto su rango vale r1 = 20 – 12 = 8, es decir, los datos de este conjunto están distribuidos a lo largo de un intervalo de longitud 8 • en el segundo conjunto su rango vale, r2 = 50 – 0 = 50, es decir, los datos de este conjunto están distribuidos a lo largo de un intervalo de longitud 50 Los elementos del segundo conjunto tienen una separación mayor entre ellos, pero el resultado no muestra el comportamiento de los datos con respecto a su media. 1.6.2 Varianza y desviación estándar Otra medida de dispersión de los datos que está relacionada directamente con la media del conjunto es la varianza. Definición 1.14 Se llama varianza de un conjunto de datos al promedio de los cuadrados de las desviaciones de cada uno de los datos con respecto a su valor medio. Si se tienen n datosmuestrales, x1, x2,. . ., xn con valor medio igual a x , loscuadrados de las desviaciones de cada uno de los datos con respecto a su valor medio serán (x1 x)2, (x2 x)2, etcétera. Al igual que en los valores medios, la varianza puede definirse con respecto a la muestra o a la población. Respecto a la muestra Definición 1.15 La varianza muestral o estadístico varianza del conjunto de datos x , x ,. . ., x , se representa 1 2 n 2 por s datos con respecto a x, y se calcula s2 1 ni n (xi x)2 1 Sobre la definición anterior podemos decir que denota la intención de una medida variacional de un conjunto de datos, sólo que más adelante (unidades 9 y 10) se verá que es conveniente definir el estadístico varianza dividiendo entre n – 1 en lugar de n. Para distinguirlas, se les asignan nombres diferentes, los cuales se justificarán hasta la unidad 9, cuando se analice el tema “Estimadores puntuales”. Mientras tanto se define La varianza sesgada como s2n 1 ni n (xi 1 x)2 33 1 2 La varianza insesgada como sn 1 n n 1i (xi x)2 1 Pero, ¿por qué dos definiciones diferentes en lugar de una? Porque la varianza sesgada refleja perfectamente el significado de una medida de dispersión y por consiguiente tiene una gran aplicación en el estudio de las probabilidades. Mientras que la varianza insesgada, es más propicia para los cálculos estadísticos y se emplea generalmente para las muestras. Respecto a la población De forma similar para poblacionesfinitas se define el parámetro varianza poblacional, el cual está representado por 2. Dado el conjunto de datos poblacionales x1, x2,. . ., xn, con valor medio , se define la varianza poblacional Varianza poblacional * 1 N (xi Ni 1 2 )2 La varianza se calcula con los cuadrados de las desviaciones y, por tanto, no está en las mismas unidades que los datos. Por consiguiente, se introduce una nueva medida de dispersión de la siguiente forma: Definición 1.16 Se llama desviación estándar de un conjunto de datos a la raíz cuadrada positiva de la varianza, es decir 2 Ejemplo 10 o s s2 Se calcula la varianza insesgada y la desviación estándar de cada uno de losdos conjuntos de la sección 1.6: Primer conjunto: 20, 12, 15, 16, 13 y 14. Anteriormente se encontró que x = 15. s2n 1 1 n 1i n ( xi x)2 1 1 (20 15)2 (12 15)2 (15 15)2 (16 15)2 (13 15)2 (14 15)2 6 1 1 25 9 0 1 4 1 5 8 La desviación estándar es sn – 1 = 8 2.8284. * En las unidades 5 y 7 se presenta una definición más general, la cual se puede aplicar tanto a poblaciones finitas como infinitas. 34 Segundo conjunto: 5, 0, 50, 17, 8 y 10. Anteriormente se encontró que x = 15. s2n 1 1 n ( xi n 1i 1 6 1 x)2 1 (5 15)2 (0 15)2 (50 15)2 (1 17 15)2 (8 15)2 (10 15)2 1 100 225 1225 4 49 25 5 325.6 La desviación estándar es sn – 1 = 325.6 18.0444 . Cálculo de las varianzas Para los cálculos se acostumbra emplear otra representación equivalente a la de varianza, determinada por las siguientes fórmulas: Varianza sesgada Varianza insesgada Ejemplo 11 s2n n 1 ni s2n x2i x2 1 n 1 1 n 1i x2i 1 n n 1 x2 Se calcula la varianza insesgada para los conjuntos de datos del ejemplo 10, empleando las últimas fórmulas para la varianza, y se verifica que coincidan los resultados. Primer conjunto: 20, 12, 15, 16, 13 y 14. s2n 1 1 n n 1i x2i 1 n n 1 x2 1 202 122 152 162 132 142 6 1 1 400 144 225 256 169 196 5 6 6 1 (15)2 6 225 278 270 8 5 Segundo conjunto: 5, 0, 50, 17, 8 y 10. s2n 1 1 n 1i n x2i 1 n 2 x n 1 1 52 6 1 1 25 0 2500 289 64 100 5 02 502 172 82 102 6 (15)2 6 1 6 225 595.6 270 325.6 6 5 En los cálculos anteriores se observa que en ambos casos coinciden los resultados con los del ejemplo 10. 35 Ejercicio 2 1. Calcula el rango y la varianza insesgada del siguiente conjunto de datos: 145 150 165 155 155 145 150 140 145 150 160 175 150 160 2. Calcula la desviación estándar de los tiempos de llegada de ocho aviones que aterrizan en un aeropuerto. Los tiempos en minutos son 3.5, 4.2, 2.9, 3.8, 4.0 y 2.8. 3. En los envases de leche, la cantidad de líquido no es siempre un litro, por lo que se toma una muestra de diez envases, y se obtienen los siguientes valores: 0.95 1.01 0.97 0.95 1.0 0.97 0.95 1.01 0.95 0.98 Calcula la varianza. 1.7 Clases de frecuencia Hasta ahora se ha trabajado sólo con muestras o poblaciones menores de 30 elementos, cuyos cálculos no han sido tan laboriosos; pero qué pasa cuando la cantidad de datos es considerable o éstos provienen de mediciones que hagan más laborioso el cálculo de sus medidascentraleso devariación. Ademásdelo anterior, puedeser quesólo necesitemosun resumen más compacto del conjunto de datos o incluso tener una representación gráfica del comportamiento de su distribución, por lo que siendo un conjunto con gran cantidad de datos (por ejemplo, 200) visualizarlos todos, para poder estudiar su distribución, no es factible, por consiguiente, es necesario emplear alguna otra estrategia de análisis. El problema mencionado se puede resolver fácilmente distribuyendo los datos por medio de intervalos, lo que da origen a la siguiente definición: Definición 1.17 Dado un conjunto de datos, se llama intervalos de clase o clases de frecuencia o simplemente clases a los intervalos que por parejas son ajenos o disjuntos y contienen todos los datos del conjunto. Una pareja de intervalos son disjuntos si no tienen elementos en común. Con respecto a la cantidad de intervalos de clase, se pide que no sea una cantidad excesiva o insuficiente. No existe una regla determinante para obtener la cantidad de intervalos cuando se tienen n datos. Algunos especialistas en estadística emplean el entero más cercano a la raíz de n, otros el entero más cercano a log(n), o bien la llamada regla de Sturges, en la cual se toma como el tamaño de la muestra el entero más cercano a 3.3logn + 1 con n cantidad de datos correspondientes a las observaciones. Para efectos de este libro, se empleará una cantidad de intervalos que, dependiendo del valor de n, se encuentre entre cinco y veinte. Nota Con respecto a los intervalos de clase, no es un requisito que sean de igual longitud, sin embargo, aquí habrá restricción a clases de igual longitud. 36 1.7.1 Construcción de clases de frecuencia Para la construcción de los intervalos de clase o clases de frecuencia existen diferentes técnicas, al igual que en la elección de la cantidad de clases no existe un método determinante o una fórmula general. Lo único que debe respetarse es: • un mismo dato no debe de pertenecer a dos intervalos diferentes • todos los datos deben de estar distribuidos en los intervalos formados Aquí se construirán los intervalos de clase de un conjunto de datos {x1, x2,. . ., xn}, de acuerdo con los siguientes puntos: 1. Se calcula el rango del conjunto de datos. 2. Se divide el rango entre la cantidad de clases o intervalos que queremos tener y el valor calculado será la longitud decada una de éstas en lasque se distribuirán los datos. 3. Para formar lasclaseso intervalosseconsideran cerradoslosextremosizquierdos de los intervalosy losderechos se consideran abiertos, tomando a la última clase en ambos extremos cerrada. Ejemplo 12 Dado un conjunto de datosdonde el valor máspequeño es5 y el másgrande75. Construye diez intervalos de clase para dicho conjunto de datos. El rango del conjunto es: r = 75 – 5 = 70. Como queremos tener diez intervalos de clase dividimos el rango 70 entre diez y obtenemos siete. Este valor será la longitud de cada una de las clasesde frecuencia. Por tanto, las diez clases son [5,12), [12,19), [19,26), [26,33), [33,40), [40,47), [47,54), [54,61), [61,68), [68,75] Recuérdese que un intervalo de la forma [26,33) indica que se consideran todos los valores que están entre 26 y 33, incluyendo el 26 y excluyendo el 33. 1.7.2 Frecuencias relativas Empleamos la construcción de losintervalos de clase para estudiar de forma simplificada la distribución de los datos, por tanto, después de construir los intervalos de clase, contamos la cantidad de datos que caen en cada uno. A dicha cantidad se le llama frecuencia de la clase o frecuencia de clase o frecuencia absoluta y se simboliza por fi , donde i representa el número de la clase y n fi i n 1 Definición 1.18 Se llama frecuencia relativa de una clase i al cociente de la cantidad de datos que se encuentran en ésta con respecto del total de datos en el conjunto y se simboliza por fr donde n representa la cantidad total de datos. fi n 37 Ejemplo 13 Se consideran lascalificaciones (con escala de cero a 100) de 80 estudiantes en la materia física experimental, se distribuyen en siete clasesde frecuenciasy se calculan las frecuencias relativasde las clases: 30 68 88 100 30 36 86 76 98 30 89 99 96 100 100 68 45 69 38 79 78 98 89 94 68 30 88 46 89 81 94 80 99 40 100 67 45 58 30 89 35 58 90 67 78 100 100 78 98 65 60 68 100 69 70 86 76 83 69 78 85 79 77 68 52 89 56 45 98 91 100 68 84 67 69 46 79 85 78 48 Lo primero es construir las siete clases de frecuencia, encontrando el valor más grande 100 y el más pequeño 30, por tanto, el rango vale r = 100 – 30 = 70. Como se piden siete clases de frecuencias, se divide 70 entre siete y el resultado es diez. Es decir, la longitud de las clases de frecuencia será de diez unidades. El primer intervalo es [30, 40), es decir, todos los datos que sean mayores o iguales a 30 pero menores a 40; los datos son 30, 38, 30, 30, 30, 35, 36 y 30, ocho en total. Este proceso de conteo se continúa hasta llegar a la última clase. Al realizar el conteo de elementos por clase se recomienda que los datos contados se marquen para evitar una equivocación. Por ejemplo, después del primer conteo la tabla queda de la siguiente forma 30 88 96 100 45 38 78 89 68 88 68 100 100 68 69 79 98 94 30 46 30 86 85 89 94 99 100 45 30 35 36 76 78 81 80 40 67 58 89 58 98 90 100 100 68 70 83 85 68 56 30 67 78 98 100 86 69 79 52 45 89 78 65 60 69 76 78 77 89 98 99 91 100 48 68 84 67 69 46 79 Finalmente, secalculan lasfrecuenciasrelativaspor clase, dividiendo lasfrecuencias entre la cantidad total de datos, en este caso 80, y se obtiene 38 Tanto en estadísticacomo en probabilidad tieneun interésparticular laacumulación de frecuencias, por lo que se definen dos nuevas medidas en las clases de frecuencia: frecuencia acumulada y la frecuencia relativa acumulada. Definición 1.19 Se llama frecuencia acumulada a la función que representa la suma de las frecuencias por clase, y se simboliza por F . i Definición 1.20 Se llama frecuencia relativa acumulada a la función que representa la suma de las frecuencias relativas por clase y se simboliza por F . r Cálculo de las frecuencias acumuladas Dado un conjunto con n datos, se divide en m intervalos de clase con frecuencias f1, f2, . . ., fm, tales que f1 + f 2 + . . . + fm = n (cantidad total de datos). Bajo estas condiciones la frecuencia acumulada está dada por xi x i 1 F(x) fi Mientras que para el caso de la frecuencia relativa acumulada, las frecuencias relativas por clase son f1 f2 f , ,..., m ; n n n se cumple f1 n f2 n fm n 1 y, por tanto, se tiene Frecuencia relativa acumulada de una clase i es el cociente de la frecuencia acumulada de clase i entre la cantidad total de datos n, es decir Fr Fi n Debido a que en las frecuencias por clase no es de interés el valor de cada elemento sino sólo la cantidad de estos en la clase, se acostumbra realizar el conteo por medio de las barras como antiguamente se llevaba a cabo; es decir, se pone una barra vertical por elemento contado y cada vez que se llega a cuatro barras la quinta se coloca en diagonal. Por ejemplo, para contar ocho elementos: 39 Con esta forma de conteo se puede construir, a partir de la tabla 1.1, una tabla similar que contenga las frecuencias acumuladas 1.7.3 Media, mediana y moda en clases de frecuencia Al igual que se realizó con un conjunto de datos del cual se obtuvieron sus medidas centrales y de desviación, éstas se pueden obtener para lasclasesde frecuencia empleando los puntos medios de las clases y sus frecuencias de clase. Definición 1.21 Sea k el número de clases, x el punto medio de la i-ésima clase y f la frecuencia de la i-ésima i i clase, entonces el valor de la media aritmética se calcula con la fórmula k x i fi xi 1 n Otro valor promedio importante es la mediana (Md ), que divide la distribución en dos áreas iguales; numéricamente se compara con la media aritmética x. Se puede obtener el cálculo de la mediana con la siguiente fórmula: donde Md n C 2 L l f L = límite inferior de clase mediana l = longitud del intervalo de clase mediana n = mitad de las observaciones 2 C = frecuencia acumulada anterior a la clase mediana f = frecuencia del intervalo de clase mediana 40 La clase mediana esel intervalo que incluye la mitad de lasobservaciones; esposible definirla al calcular la frecuencia acumulada F. Ejemplo 14 Con los datos del ejemplo 13, se calcula la mediana Md. El intervalo de clase mediana es [70, 80), ya que F5 = 46 incluye a la mitad de las observaciones n/ 2 = 80/ 2 = 40; l = 80 – 70 = 10. Md L n C 2 l f 70 10 40 34 12 70 10 6 12 70 5 75 El valor promedio moda (Mo ), que se comparará con los valores numéricos de la media aritmética x y la mediana Md, se calcula con la fórmula: donde Mo L l L = límite inferior de la clase modal l = longitud del intervalo de clase modal d1= diferencia en frecuencia del intervalo de clase modal d1 d1 d2 con el anterior d2= diferencia en frecuencia del intervalo de clase modal con el posterior La clase modal es el intervalo que tiene en su frecuencia el número mayor. Ejemplo 15 Con los datos del ejemplo 13, se calcula el valor promedio moda (Mo ). El intervalo de clase modal es [90, 100] ya que la mayor frecuencia está en F7 = 19 con L = 90, l = 10, d1 = 19 – 15 = 4 y d2 = 19 – 0 = 19. Mo L l d1 d1 d2 90 10 4 19 4 90 10 4 23 90 10(..1739) 90 1.739 91.74 92 1.7.4 Varianza en clases de frecuencia De forma similar a la media de clasesde frecuencia se pueden definir lasvarianzassesgada e insesgada de las clases de frecuencia. Definición 1.22 Si f y x son la frecuencia y el punto medio de la i-ésima clase, respectivamente, y i i de las frecuencias, entonces la varianza sesgada s2 se calcula con la fórmula k s2 1 ni fi (xi 1 x)2 n es la suma 41 Definición 1.23 La varianza insesgada s2 se calcula con la fórmula s2 1 n 1i k fi (xi x)2 1 La desviación estándar por clasesdefrecuencia seguirá siendo la raíz cuadrada positiva de la varianza correspondiente. Nota La media y varianza por clases de frecuencia generalmente se emplean para observar la distribución de datosmuestrales, pero en caso de querer definir estas medidas para datos poblacionales se realiza de forma similar, sustituyendo la n por N, x por y spor , como se hizo en las secciones 1.5 y 1.6. Ejemplo 16 Se calcula la varianza sesgada de las clases de frecuencia con los datos del ejemplo 13. Para realizar los cálculos más fácilmente se utilizará la a tabla 1.2, tan sólo introduciendo algunas columnas: La suma de la quinta columna dividida entre 80 corresponde al valor promedio de la media aritmética. x 5 770 80 72.125 72 Por la definición de varianza sesgada se tiene s2 1 (30 640) 382.984 383 80 Mientras que la desviación estándar correspondiente es s s2 383 19.57 42 Ejercicio 3 1. En la siguiente tabla se dan los tiempos de llegada en minutos de 60 aviones a un aeropuerto. 2.6 3.9 4.5 4.0 3.7 3.2 5.7 4.3 3.8 3.6 4.7 6.1 6.0 5.0 4.5 6.2 3.4 2.9 3.6 4.1 2.5 2.8 3.2 3.1 4.6 5.2 6.1 4.5 4.1 3.8 7.2 3.4 7.9 3.6 3.6 4.8 5.2 6.3 8.2 5.3 3.9 4.6 4.5 5.7 4.8 6.9 6.3 2.6 2.5 6.8 8.0 5.6 3.9 4.6 4.8 5.9 6.2 3.2 4.5 5.0 a) distribuye los datos en cinco clases de frecuencia b) calcula su media y varianza sesgada por medio de las clases anteriores 2. Una máquina despachadora de refrescos de un centro comercial parece estar fallando, puesto que el encargado ha recibido varias quejas en la última semana; él decide registrar la cantidad de contenido en 40 vasos despachados por dicha máquina y dividirlos en tres clases de igual longitud, si 70% o más de los refrescos despachados se encuentra en la clase media, el encargado seguirá trabajando con la máquina, en caso contrario la mandará reparar. Los valores(en mililitros) medidosson: 245.6 236.9 240.7 235.9 247.8 246.5 230.8 250.6 248.0 247.4 238.6 240.0 246.9 258.9 245.6 248.5 246.8 245.6 247.8 256.0 243.0 243.3 240.6 250.2 249.6 243.8 246.9 247.8 243.0 246.4 230.5 228.9 235.7 248.9 248.9 245.7 240.8 246.8 246.2 250.0 a) divide los valores en tres clases de frecuencia de igual longitud, calcula sus frecuencias relativas e indica si el encargado tendrá que reparar la máquina o no b) calcula la cantidad de líquido promedio que despacha la máquina, empleando las clases de frecuencia del inciso anterior 3. Si en el ejercicio anterior, además de la consideración del porcentaje, se toma en cuenta la desviación estándar de las clases de frecuencia, por medio del criterio “la máquina se reparará en caso de que la desviación estándar sea mayor a seis”, determina si el fabricante, según los datos observados, tendrá que reparar la máquina. 4. Se estudió el tiempo de vida de 90 personas con SIDA y se anotó su duración en meses, y se obtuvo 34.0 28.5 18.0 34.9 25.8 16.9 15.8 19.0 11.5 25.9 38.9 34.0 16.8 27.8 24.6 22.8 16.8 39.0 42.0 48.0 34.8 33.0 23.9 27.5 35.8 36.9 26.7 26.8 26.5 34.7 35.9 25.8 24.8 45.8 18.9 35.8 35.8 46.9 36.8 35.9 52.0 33.6 24.8 25.9 26.8 26.8 29.4 37.8 35.9 10.8 25.8 35.8 26.8 25.7 26.9 27.9 38.5 35.8 30.2 28.6 33.1 34.7 45.9 56.8 45.8 25.8 50.2 42.9 46.8 48.9 47.5 48.2 42.5 40.8 27.9 24.8 46.8 40.7 18.9 22.0 29.5 31.9 48.2 34.8 47.2 27.0 39.8 45.8 40.4 38.2 Ordena en diez clases de frecuencia y calcula la media y varianza de los datos. 43 1.8 Gráficas Las gráficas a las que se hace referencia en estadística descriptiva deben mostrar la distribución de las frecuencias o frecuencias acumuladas del conjunto de datos, con lo cual se podrá entender e interpretar fácilmente su comportamiento. Por tanto, es necesario introducir un nuevo método gráfico para la interpretación de datos, entre los gráficos más comunes están • diagrama de barras • polígono de frecuencias • diagrama circular o de pastel 1.8.1 Diagrama de barras Uno de los gráficos que más se emplean para representar un conjunto de datos es el diagrama de barras, donde se grafican una serie de rectángulos sobre un sistema de referencia. Cuando se construyen los rectángulos con sus bases sobre cada uno de los intervalos de clase y con sus alturas las frecuencias correspondientes de clase, el gráfico se llama histograma. Definición 1.24 Un histograma La construcción de histogramas comienza prácticamente igual que en las clases de frecuencia: 1. Se construyen los intervalos de clase. 2. Se encuentra el punto medio de cada intervalo de clase. 3. En el plano cartesiano, en el eje de las abscisas, se distribuirán los puntos medios de las clases de frecuencia, mientras que en el eje de las ordenadas se distribuirán las frecuencias de los datos. Finalmente, se construye el histograma graficando una barra por cada clase, y cuyo centro será el punto medio de ésta, de tal manera que la altura de la barra es la frecuencia o frecuencia relativa y la base de los rectángulos está definida por los límites de cada clase. Para facilitar la construcción de un histograma es recomendable emplear sólo intervalos de clase de igual longitud, ya que en dado caso las frecuencias de las clases se grafican de manera proporcional a las alturas de los rectángulos y además es mucho más fácil comparar lasdiferenciasentrefrecuenciascuando losrectángulostienen lamismabase. Ejemplo 17 Se construye un histograma para las clases de frecuencia y la frecuencia acumulada del ejemplo 13. 44 Empleando la tabla 1.2: Se grafican los puntos medios de los intervalos (tercera columna) y se trazan los rectángulos con sus bases iguales a la longitud de la clase y con las alturas correspondientes a su frecuencia, como se muestra en las siguientes figuras: f F (x) 80 19 15 61 12 46 8 7 4 34 0 25 35 45 55 65 75 85 95 105 19 15 8 0 a) Nota 25 35 45 55 65 75 85 95 105 b) Para las frecuencias relativas el histograma es el mismo, sólo se divide cada frecuencia entre el total de datos. Modelos de distribución de datos Los histogramas no sólo nos ayudan a ubicar el centro y visualizar la variabilidad de los datos, sino también la forma en que se distribuyen; por tanto, los podemos clasificar en • simétricos • sesgados hacia la izquierda o la derecha • multimodales 45 Histogramas simétricos Presentan la distribución en forma de campana, es decir, la mitad izquierda es una imagen reflejada de la mitad derecha. Como muestra la figura 1.2a, se cumple x = Md = Mo. Histogramas sesgados Presentan unadistribución en la quealgunade lascolasestá másalargadaen comparación con la otra. Se llaman sesgados a la derecha o positivamente sesgados si la cola derecha es la que está más alargada. Como lo muestra la figura 1.2b, se cumple Mo < Md < x. Se les llama sesgados a la izquierda o negativamente cuando la cola izquierda es la más alargada. Como lo muestra la figura 1.2c, se cumple x < Md < Mo. Histogramas multimodales Tienen en su distribución más de un pico (ver figura 1.2d). En caso de dos picos bimodal, en caso de tres, trimodal etcétera. Ejemplo 18 a) b) c) d) Retomando losdatos del ejemplo 13 y comparando losvalores promedio calculados x = 72, Md = 75, Mo = 92, el modelo asociado con las80 calificacionesde física experimental es sesgado a la izquierda. 46 1.8.2 Polígono de frecuencias En ciertasáreas de estudio se requiere que las representaciones gráficas de la distribución de las frecuencias de datos sean hechas por líneas en lugar de barras. Por ejemplo, al realizar un estudio sobre lospronósticosde algún evento se visualiza mejor la distribución de susfrecuenciasy sustendenciassi se unen suspuntosmedioscon segmentosrectilíneos en lugar de trazar barras. Definición 1.25 Un polígono de frecuencias uniendo por líneas los puntos medios de cada intervalo, donde x es el punto medio de clase i y f i i . su frecuencia. Debido a su forma también se le suele llamar Construcción de un gráfico poligonal 1. Se crean los intervalos de clase. 2. Se encuentra el punto medio de cada intervalo de clase. 3. En el plano cartesiano, en el eje de las abscisas, se distribuirán los puntos medios de las clases de frecuencia, mientras que en el eje de las ordenadas se distribuirán las frecuencias de los datos. Finalmente, se construye el gráfico poligonal uniendo los puntos obtenidos. Ejemplo 19 Se construye un polígono de frecuencias para las clases del ejemplo 13. Por medio de la tabla 1.4, si se grafican los puntos obtenidos de la tercera y la cuarta columnas: f 19 15 12 8 7 4 0 35 45 55 65 75 85 95 Los polígonos de frecuencia se emplean frecuentemente en el estudio de las series de tiempo, pues es común querer conocer la tendencia de la distribución de los datos con respecto al tiempo. Además, en ciertas situaciones, cuando se quieren comparar las distribucionesde doso másconjuntosde datos, esmejor hacerlo por medio de lospolígonos de frecuencias que mediante las barras, puesto que los primeros se pueden sobreponer y realizar una observación mucho mejor, lo que no es aplicable con los histogramas. 47 Definición 1.26 A los polígonos de frecuencia que se elaboran con las frecuencias acumuladas o las frecuencias relativas acumuladas se les llama ojivas. Ejemplo 20 Se construye la ojiva para las frecuencias relativas acumuladas del ejemplo 13. 1 0.7625 0.5750 0.4250 0.2375 0.1875 0.10 0 1 2 3 4 5 6 7 1.8.3 Diagrama circular o de pastel Otro tipo de representación gráfica de la distribución de datos muy empleado, cuando se quieren ilustrar las proporciones de los datos de tal forma que llamen la atención, son los diagramas circulares. Definición 1.28 Un diagrama circular frecuencias relativas del conjunto de datos. Por su forma también se le suele llamar diagrama de pastel. Construcción de un diagrama circular 1. Se crean los intervalos de clase. 2. Se calculan las frecuencias relativas por clase. 3. A partir del centro de un círculo se trazan sectores proporcionales al área que representen la frecuencia relativa por clase. Ejemplo 21 Se construye un diagrama circular que representela distribución por clasesde frecuencias relativas para las estaturas (en centímetros) de la siguiente muestra de 50 personas. 48 Como son 50 datos y se van a distribuir en siete clases, primero se calcula el rango del conjunto r = 186.4 – 158.4 = 28 Se quieren obtener sieteclases, por tanto, se divide el rango 28 entre siete y el resultado es cuatro. Este valor será la longitud de cada una de las clasesdefrecuencia. Es decir [158.4,162.4), [162.4,166.4), [166.4,170.4), [170.4,174.4), [174.4,178.4), [178.4,182.4), [182.4,186.4) Para obtener el área que representa la frecuencia relativa en el digrama circular, se multiplica la frecuencia relativa por 360°. Clase Intervalo i i 1 [158.4, 162.4) 2 0.04 2 [162.4, 166.4) 5 0.10 3 [166.4, 170.4) 8 0.16 4 [170.4, 174.4) 12 0.24 5 [174.4, 178.4) 12 0.24 6 [178.4, 182.4) 9 0.18 7 [182.4, 186.4] 2 0.04 12 24% 12 24% 8 16% 5 10% Conteo 9 18% Frecuencia Frecuencia fi relativa 24% 24% 16% 10% 4% 4% 18% 2 2 4% 4% a) b) Con el avance de la informática y la creación de software, han aumentado las representaciones gráficas para las distribuciones de los datos; en esta unidad sólo se han ilustrado algunas de ellas. A continuación se mencionan otros tipos de diagramas: • • • • • • anillos superficies cotizaciones cilíndricas cónicas piramidales Todaséstas se pueden encontrar en software estadístico para computadora. 49 Ejercicio 4 1. Con los datos del ejercicio 3, numeral 1, traza los gráficos de barras y poligonal para las frecuencias señaladas. 2. Con los datos del ejercicio 3, numeral 2, construye un diagrama de pastel que represente las proporciones mencionadas. Ejercicios propuestos 1. Calculalamedia, mediana, moday varianzainsesgadadel siguienteconjunto dedatos 18 19 18 16 11 10 26 18 20 22 24 19 18 11 16 20 2. Calcula las frecuencias relativas de los datos del ejercicio anterior. 3. Calcula la media geométrica del conjunto de datos del ejercicio 1. 4. Calcula la media geométrica de las edades (en años) de ocho personas: 20, 23, 24, 22, 19, 22, 25 y 27. 5. Calcula la media armónica del viaje redondo que realizó una persona de México a Querétaro (210 km), si de ida lo recorrió a una velocidad de 130 kmph y de regreso a 110 kmph. 6. Si una persona viajó 400 km en cuatro tramosde 100 km cada uno, con velocidades de 100, 130, 90 y 110 kmph, respectivamente, calcula con base en la media armónica la velocidad media con la que realizó el viaje. 7. Los siguientes datosmuestran los diámetrosinternosen centímetros de 20 pistones, calcula su diámetro interno medio y su desviación estándar. 12.1 11.9 12.2 11.7 11.9 12.4 12.1 12.0 11.6 13.0 12.8 11.8 12.4 12.3 11.9 12.2 11.9 12.1 12.2 11.9 8. Ciertos fabricantes de llantas quieren saber la duración promedio de su producto según el uso de diferentes conductores, para lo cual se toma una muestra aleatoria de 100 de sus compradores, loscualesreportaron la duración de sus llantasen milesde kilómetros 55.3 59.5 60.0 48.6 59.1 63.5 56.3 55.0 53.7 52.8 50.5 56.7 60.8 67.6 68.0 64.4 58.0 49.9 65.4 47.9 45.2 68.1 56.5 50.5 51.2 55.9 61.8 73.0 65.3 60.0 56.6 57.3 49.9 69.5 50.2 52.1 56.7 56.2 52.9 55.0 49.8 51.4 56.8 60.1 56.7 55.9 55.2 65.0 54.8 50.2 56.7 67.0 58.8 57.9 49.9 50.6 58.6 54.8 53.8 52.0 52.8 51.9 61.0 62.5 64.2 67.1 59.9 58.1 56.7 54.0 56.3 53.9 52.0 52.9 51.9 56.0 58.1 52.0 57.0 56.1 49.9 61.0 62.5 51.8 50.1 50.8 60.2 57.8 53.2 51.8 60.1 60.9 56.8 48.0 58.9 57.6 59.7 60.7 63.6 65.3 Con estos datos, calcula la duración promedio de las llantas y su varianza insesgada, dividiendo el conjunto de datos en diez clases de frecuencias. 50 9. Con base en los datos del ejercicio anterior traza un histograma para las clases de frecuencias encontradas. 10. Haciendo uso de las fórmulas respectivas, encuentra la mediana y la moda de la duración de las llantas del ejercicio 8 y compáralas con la media encontrada. Obtén también el tipo de modelo asociado. 11. En la siguiente tabla se muestran loserrores tipográficos por página que comete una secretaria en 100 páginas. 0 2 3 2 1 5 2 1 6 3 1 5 6 2 3 2 2 2 4 5 5 3 2 6 7 1 3 7 2 3 4 4 5 8 1 3 4 7 3 8 10 0 5 3 2 4 4 6 7 8 9 2 4 6 2 3 4 7 6 4 5 4 6 7 7 2 1 3 8 2 4 5 6 2 7 2 5 5 1 8 3 4 7 8 2 8 1 3 4 4 3 5 6 2 4 2 6 8 1 7 a) divide a los datos en ocho clases de frecuencia y calcula la media por clases b) calcula la varianza de clase 12. Traza un histograma del ejercicio anterior. 13. La siguiente lista muestra las calificaciones de los alumnos de dos grupos de 30 alumnos, cada uno. Determina la calificación promedio por grupo, su varianza insesgada y qué grupo tiene calificaciones más homogéneas. Grupo 1 Grupo 2 8 8 3 5 10 9 4 7 1 3 8 9 7 7 7 2 3 8 8 9 7 8 4 5 6 6 10 6 3 8 10 10 8 0 0 2 8 4 1 4 8 5 2 10 10 10 9 8 9 2 3 3 1 1 2 4 8 6 3 8 Autoevaluación Indica la respuesta correcta. 1. La Bolsa Mexicana de Valores ha tenido diferentes alzas y bajas en puntos porcentuales durante la primer quincena de junio de 2000 51 Calcula el porcentaje medio obtenido en dicha quincena a) b) c) d) 3.8 15 1.5 0.38 2. Los precios del barril de petróleo crudo exportado por México durante 16 días del año 2000 fueron 31.5 31.0 32.0 32.5 32.5 31.2 30.5 31.5 32.0 31.5 31.0 30.9 31.8 30.6 32.0 32.0 Considerando estos precios, calcula la desviación estándar muestral de la variabilidad de los precios en esos 16 días a) b) c) d) 1.3456 0.6237 0.3053 0.4672 3. Calcula la moda de los precios del petróleo del ejercicio anterior a) b) c) d) 31.5 32.0 32.5 31.0 4. Calcula la media de los precios del petróleo del ejercicio 2. Asimismo, calcula mediana, moda y media geométrica de dichos precios y determina cuál de estas medidas es más próxima al valor medio a) mediana b) moda c) media geométrica 5. Un chofer de una línea de camiones viajó 1 000 km en cuatro tramos de 250 km cada uno, con velocidades de 90, 80, 95 y 85 kmph, respectivamente. Calcula, con base en la media armónica, la velocidad media con la que realizó el viaje a) b) c) d) 87.14 kmph 89.4 kmph 85 kmph 87.5 kmph 52 6. Los siguientes datos muestran los sueldos de 90 personas elegidas aleatoriamente. Ordena los datos en diez clases de frecuencia de igual longitud y calcula media aritmética x, mediana Md y moda Mo La distribución es a) b) c) d) sesgada a la derecha simétrica sesgada a la izquierda bimodal 7. Calcula la desviación estándar del ejercicio anterior a) b) c) d) 23.45 18.93 12.16 15.34 8. En la siguiente lista se muestran lascalificacionesde losalumnos, de cuatro muestras de diez alumnos, cada una. Por medio de su varianza insesgada, determina qué muestra resultó más homogénea en sus calificaciones. Muestra 1 8 5 2 10 10 9 4 7 1 3 Muestra 2 1 2 4 8 6 10 10 8 8 9 Muestra 3 7 8 4 5 6 10 9 8 9 2 Muestra 4 10 10 9 8 9 2 8 4 8 6 a) muestra 1 b) muestra 2 c) muestra 3 d) muestra 4 9. Indica cuál de los siguientes incisos define mejor el concepto de estadística descriptiva a) parte de la estadística que sirve para obtener inferencias de la población a partir de los datos muestrales b) parte arte de la estadística que sirve para llevar a cabo losdiseñosde los diseños de experimentos y poder tomar una decisión c) parte de la estadística que sirve para describir la totalidad de elementosde elementos de una población o muestra d) partedelaestadísticaquesirveparaestimar parte de la estadística que sirve para estimar losparámetrosdeunapoblación losparámetros de una población con base en un muestreo aleatorio 53 Respuestas de los ejercicios Ejercicio 1 1. media = 153.214; mediana = 150; moda = 150 2. media = 3.533; mediana = 3.65 3. 3.492 4. 86.08 5. 10.425 Ejercicio 2 1. rango = 35; varianza = 86.95 2. 0.5785 3. 0.00063 Ejercicio 3 1. a) [2.50, 3.64), [3.64, 4.78), [4.78, 5.92), [5.92, 7.06), [7.06, 8.20] b) media 4.704; varianza 1.922 2. a) [228.9, 238.9), [238.9, 248.9), [248.9, 258.9]; frecuencias relativas: f1 = 0.175, f 2 = 0.625, f 3 = 0.200; se tendrá que reparar la máquina b) 244.15 3. desviación estándar = 6.12; se tendrá que reparar la máquina 4. [10.8, 15.4),, [15.4, 20.0),, [20.0, 24.6),, [24.6, 29.2),, [29.2, 33.8),, [33.8, 38.4),, [38.4, 43.0),, [43.0, 47.6),, [47.6, 52.2),, [52.2, 56.8];; media media= = 33.14; varianza varianzasesgada= varianzasesgada sesgada = 91.84 54 Ejercicio 4 1. 20 20 16 16 12 12 8 8 4 4 0 0 3.07 4.21 5.35 6.49 7.63 3.07 4.21 5.35 6.49 7.63 2. Respuestas de los ejercicios propuestos 1. media = 17.875; mediana = 18; moda = 18; varianza insesgada = 19.7167 2. Frecuencia 10 11 16 18 19 20 22 24 26 Valor 1 16 2 16 2 16 4 16 2 16 2 16 1 16 1 16 1 16 3. media geométrica = 17.3014 4. media geométrica = 22.6196 5. media armónica = 119.1667 6. media armónica = 105.5567 7. media = 12.12; desviación estándar = 0.3443 8. rango = 28; longitud de clase = 2.8. Las clases y sus puntos medios se muestran en la tabla. Media = 56.212; varianza insesgada = 61.263 55 9. 1 [45.0, 47.8) 46.4 1 2 [47.8, 50.6) 49.2 13 3 [50.6, 53.4) 52.0 17 4 [53.4, 56.2) 54.8 14 5 [56.2, 59.0) 57.6 23 6 [59.0, 61.8) 60.4 14 7 [61.8, 64.6) 63.2 7 8 [64.6, 67.4) 66.0 6 9 [67.4, 70.2) 68.8 4 10 [70.2, 73.0] 71.6 1 25 20 15 10 5 0 46.4 49.2 52 54.8 57.6 60.4 63.2 66 68.8 71.6 10. mediana = 56.7; modelo asociado asimétrico positivo 11. rango = 10; longitud de clase = 1.25. Las clases y sus puntos medios se muestran en la tabla. Media = 4.225; varianza insesgada = 5.564 56 12. 21 19 15 14 11 10 8 2 0 0.625 1.875 3.125 4.375 5.625 6.875 8.125 9.375 13. grupo 1: media = 6.3 y varianza insesgada = 6.1896 grupo 2: media = 5.3 y varianza insesgada = 12.355 el grupo más homogéneo fue el 1 Respuestas de la autoevaluación 1. d) 2. b) 3. b) 4. c) 5. a) 6. a) 7. d) 8. c) 9. c)