ESTADÍSTICA Rama de las matemáticas aplicadas, que estudia los hechos económicos, sociales y físicos a base de datos numéricos; entre las estadísticas más antiguas cuentan los censos de población, el cálculo de ganados y cosechas, etc. La estadística es una ciencia, pues aplica el Método Científico al ocuparse de la toma, organización, recopilación y análisis de datos, tanto para la deducción de conclusiones, para la toma de decisiones razonables de acuerdo a tales análisis. Población: Se le llama población o universo, al conjunto total de individuos u objetos que se desean investigar. Muestra: Es un grupo de una población. Se utiliza cuando la población es muy numerosa, infinita o muy difícil de examinar. Estadística Descriptiva: Es la parte de la estadística que trata solamente de describir y analizar un grupo dado sin sacar conclusiones o inferencias de un grupo mayor, a partir de ella. La estadística descriptiva incluye las técnicas que se relacionan con el resumen y la descripción de datos numéricos. Estos datos pueden ser gráficos o pueden incluir análisis computacional. Estadística Inferencial: Cuando una muestra es representativa de una población se pueden deducir importantes conclusiones acerca de esta, a partir de su análisis. La inferencia estadística comprende aquellas técnicas por medio de las cuales se toma decisiones sobre una población estadística basadas solo en la muestra observada. Debido a que dichas decisiones se toman en condiciones de incertidumbre, entonces estas serán confiables con cierto grado de probabilidad. Considerando que las características medidas de una muestra se denominan estadísticas de la muestra, las características medidas de una población estadística, o universo se llaman parámetros de la población. ANALISIS ESTADISTICO Distribución de Frecuencias: Las distribuciones de frecuencias, son series estadísticas ordenadas por intervalos de clases, y por lo tanto, corresponden a la clasificación de grupo de datos, de acuerdo a una característica cuantitativa. Esta distribuciones se elaboran cuando se tiene una masa de datos, para reducirla a grupos homogéneos y poco numerosos, con fines de descripción, análisis y obtención de indicadores. Serie simple o arreglo: Es un simple listado de la información obtenida de una fuente de datos. Ejemplo: Sueldos mensuales, en pesos, pagados a 20 trabajadores de una empresa, ordenados en forma ascendente: 210.000 – 250.000 – 250.000 – 280.000 – 280.000 – 300.000 – 300.000 – 350.000 – 350.000 – 400.000 – 400.000 – 450.000 – 450.000 – 500.000 – 550.000 – 550.000 – 600.000 – 600.000 – 700.000 – 750.000 Como el sueldo es mínimo es $210.000 y el máximo $750.000, el Rango de los salarios es: 750.000 – 210.000 igual a $540.000. Como esta tabla no permite tener un idea de la distribución de los sueldos, hay que clasificarlos en un cuadro de frecuencias. Tabla de frecuencias sin clase (datos no agrupados): Los datos de la tabla anterior se pueden resumir, al registrarse el número de trabajadores, de acuerdo a su sueldo. Sueldo ($) Número de Obreros (Frecuencias) 1 2 2 2 2 2 2 1 2 2 1 1 210.000 250.000 280.000 300.000 350.000 400.000 450.000 500.000 550.000 600.000 700.000 750.000 Tabla de frecuencias con clase (con datos agrupados): Para ello debemos considerar cada intervalo con límites cerrado y abierto, o sea [210.000,300.000[ La tabla siguiente la vamos a elaborar con frecuencias absolutas, estas frecuencias son las que se obtienen directamente del conteo, pero, también incorporaremos las frecuencias relativas que corresponden a los porcentajes de cada frecuencia absoluta, en este caso, se determina con respecto al total de trabajadores (20). También incorporaremos a la tabla la frecuencia absoluta acumulada que corresponde a la frecuencia absoluta del intervalo más la suma de las frecuencias absolutas de todos los valores anteriores y la frecuencia relativa acumulada que corresponde al porcentaje de la frecuencia relativa del intervalo más la suma de las frecuencias relativas de todos los valores anteriores. La marca de clase corresponde al valor medio de cada intervalo. Sueldo ($) Marca de Clase recuencia Absoluta Frecuencia Relativa % 200.000 – 300.000 300.000 – 400.000 400.000 – 500.000 500.000 – 600.000 600.000 – 700.000 700.000 – 800.000 250.000 350.000 450.000 550.000 650.000 750.000 5 4 4 3 2 2 25 20 20 15 10 10 Frecuencia Absoluta Acumulada 5 9 13 16 18 20 Frecuencia Relativa Acumulada % 25 45 65 80 90 100 Representaciones Gráficas Para hacer más clara y evidente la información que nos dan las tablas se utilizan los gráficos. Existen múltiples tipos de gráficos, pero aquí trataremos solamente de los usados más frecuentemente, que son: gráfico de barras, gráfico de sectores o circular (pastel), histograma, polígono de frecuencias, la ojiva y el pictograma. Gráfico de Barras: Se usa fundamentalmente para representar distribuciones de frecuencias de una variable cualitativa o cuantitativa discreta y, ocasionalmente, en la representación de series cronológicas o históricas. Uno de los ejes sirve para inscribir las frecuencias, ya sean absolutas o relativas (%), y el otro para la escala de clasificación utilizada. Ejemplo: Gráfico circular: Se usa, fundamentalmente, para representar distribuciones de frecuencias relativas (%) de una variable cualitativa o cuantitativa discreta. En este gráfico se hace corresponder la medida del ángulo de cada sector con la frecuencia correspondiente a la clase en cuestión. Si los 360º del círculo representan el 100 % de los datos clasificados, a cada 1% le corresponderán 3,6º. Luego, para obtener el tamaño del ángulo para un sector dado bastaría con multiplicar el por ciento correspondiente por 3,6º (por simple regla de tres). Ejemplo: Histograma: Este gráfico se usa para representar una distribución de frecuencias de una variable cuantitativa continua. Habitualmente se representa la frecuencia observada en el eje Y, y en el eje X la variable Ejemplo: Polígono de frecuencias: Se utiliza, al igual que el histograma, para representar distribuciones de frecuencias de variables cuantitativas continuas, pero como no se utilizan barras en su confección sino segmentos de recta, de ahí el nombre de polígono. Habitualmente se usa cuando se quiere mostrar en el mismo gráfico más de una distribución. Ejemplo: Ojiva: Su objetivo, al igual que el histograma y el polígono de frecuencias es representar distribuciones de frecuencias de variables cuantitativas continuas, pero sólo para frecuencias acumuladas Ejemplo: Pictograma: Se utiliza un dibujo relacionado con el tema, para representar cierta cantidad de frecuencias. Este tipo de gráfica atrae la atención por los dibujos, pero la desventaja es que se lee en forma aproximada. Medidas de Tendencia Central La utilidad de las medidas de tendencia central se puede ver claramente cuando es necesario determinar, por ejemplo, en qué lugar se ubica la persona promedio o típica de un grupo, para comparar o interpretar cualquier puntaje en relación con el puntaje central o típico, para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones, para comparar los resultados medios obtenidos por dos o más grupos y otros casos. Las medidas de tendencia central más comunes son: La media aritmética: comúnmente conocida como media o promedio. Se representa por medio de una letra M en otros casos por X . La mediana: la cual es el puntaje que es ubica en el centro de una distribución. Se representa como Md. La moda: que es el puntaje que se presenta con mayor frecuencia en una distribución. Se representa Mo. Cómo calcular la mediana, la media y la moda. Para determinar la mediana, se ordenan los valores de mayor a menor o lo contrario. Se divide el total de casos entre dos, una vez el valor resultante corresponde al número del caso que representa la mediana de la distribución. En muchas ocasiones, los casos son tan numerosos que no se pueden ordenar uno tras otro sino que se agrupan por frecuencia de ocurrencia en cada valor o por intervalos de clase cuando el rango de posibles valores de la variable es muy amplio. En estos casos el proceso es un poco más complejo y requiere de la utilización de la siguiente fórmula N Fi 1 M Li c 2 fi Li límite inferior de la clase mediana amplitud del intervalo c N número total de datos Fi 1 frecuencia absoluta acumulada de la clase anterior a la mediana f i frecuencia absoluta de la clase mediana Para calcular la media aritmética de un conjunto de datos, se suma cada uno de los valores y se divide entre el total de casos. Sea X una variable estadística que toma los valores x1 , x2 , x3 , ...,xn , con frecuencias absolutas f1 , f 2 , f 3 , ..., f n , respectivamente, la media viene dada por: n x f x 2 f 2 ... x n f n x 1 1 f 1 f 2 ... f n x i fi i 1 n f i i 1 Si la variable es continua, o aún siendo discreta si están los datos agrupados en clases, se toman como valores x1 , x2 , x3 , ...,xn , las marcas de clase. La moda se identifica al observar el valor que se presenta con más frecuencia en la distribución. Ahora bien, en el caso de datos agrupados en intervalos, es fácil determinar la clase modal (clase con mayor frecuencia), pero el valor dentro del intervalo que se presume tenga mayor frecuencia se obtiene a partir de la siguiente expresión: M o Li c D1 D1 D2 Li límite inferior de la clase modal. c amplitud de los intervalos. D1 diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase anterior. D2 diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase siguiente. Cuantiles La mediana divide a la distribución en dos partes iguales, los cuantiles son parámetros que dividen los datos de la distribución en partes iguales. Los más usados son: Cuartiles: Se llaman cuartiles a tres valores que dividen a la serie de datos en cuatro partes iguales. Q1 , Q2 y Q3 ( cuartil primero, cuartil segundo y cuartil tercero ) Quintiles: Se llaman quintiles a cuatro valores que dividen a la serie en cinco partes iguales. K1 , K 2 , K 3 y K 4 ( quintil primero,... ) Deciles: Nueve valores iguales que dividen la distribución en 10 partes iguales. D1 , D2 , ... y D9 ( decil primero,...) Percentiles: Noventa y nueve valores que dividen la serie en 100 partes iguales. P1 , P2 , ... y P99 ( percentil primero,... ) El cálculo es análogo al de la mediana. EJERCICIOS 1. Hallar la mediana de los valores 5, 8, 13, 8, 6, 8, 10, 12, 8. a) 5 b) 6 c) 8 d) 8, 6 e) Ninguna de las anteriores 2. Para un trabajo determinado, una empresa contrata 80 operarios, 60 de ellos ganarán $ 50.000 semanales y los 20 restantes $ 70.000 a la semana. ¿Cuál es el sueldo medio de los operarios en una semana? a) $ 50.000 b) $ 55.000 c) $ 60.000 d) $ 62.857 e) $ 70.000 3. ¿Cuál es el valor de la media en la tabla de notas siguiente, correspondiente a 10 alumnos? Notas 1-3 3–5 5–7 a) 10/7 b) 10/3 Frecuencias 1 3 6 c) 50/3 d) 5 e) Ninguna de las anteriores 4. En la serie de números 2, 4, 4, 5, 5, 5, 17, el valor de la moda es(son): a) 2 y 17 b) 4 c) 5 d) 4 y 5 e) 6 5. Queremos construir un gráfico circular con la cantidad de veces que ha salido cada vocal en la página de un libro. ¿Cuántos grados le corresponden a la letra “a” en el gráfico? Vocales a e i o u a) 10° b) 12° 6. En un curso hay c) 60° Frecuencia 10 13 4 2 1 d) 120° e) 150° n 30 n 10 alumnos y en otro curso alumnos, entonces el promedio de n n alumnos es: a) 2n 20 n 2 b) 2n 20 n c) 20 d) 10 e) 1 10 n 7. En una tabla de frecuencias el intervalo 20 – 40, tiene frecuencia 18, la marca de clase es: a) 18 b) 20 c) 30 d) 40 e) 60 8. La media de seis elementos es 10. Sabiendo que cinco de ellos son 8, 12, 13, 5 y 9; hallar el elemento que falta. a) 9,5 b) 13 c) 37 d) 47 e) 60/47 9. Un alumno obtiene en tres pruebas parciales las siguientes notas: 7, 5 y 3. En el examen final consigue un 6. Si esta nota final tiene doble valor que las parciales, ¿cuál será su nota media? a) 4,2 b) 5,2 c) 5,4 d) 5,6 e) 6,7 10. Si la única moda de los siguientes datos: 5, 5, 7, x, 7, 7, 8, 8, 9, x; es 5, entonces el valor de x es: a) 5 b) 5,6 c) 7 d) 8 e) 9 ALTERNATIVAS 1. Hallar la mediana de los valores 5, 8, 13, 8, 6, 8, 10, 12, 8. Alternativa A: Incorrecta. Se elige el valor menor que no tiene ninguna relación con la mediana. Alternativa B. Incorrecta. Para determinar la mediana se deben ordenar los datos en forma ascendente o descendente. Al no hacerlo se llega a esta alternativa. Alternativa C. CORRECTA. Al ordenar los datos de menor a mayor o viceversa, el valor que ocupa el lugar central es el 8, por lo tanto es la mediana. Alternativa D: Incorrecta. No corresponde sumar todos los valores dados y dividirlos por el total de ellos. Esa operación corresponde a la media aritmética. Alternativa E:. Incorrecta. Diversos procedimientos erróneos llevan a optar por esta alternativa. 2. Para un trabajo determinado, una empresa contrata 80 operarios, 60 de ellos ganarán $ 50.000 semanales y los 20 restantes $ 70.000 a la semana. ¿Cuál es el sueldo medio de los operarios en una semana? Alternativa A: Incorrecta. Como la mayoría de los operarios ganarán $ 50.000 semanales, se considera esta valor como el sueldo medio de todos los operarios de la empresa. Alternativa B. CORRECTA. Se efectúan los productos 60 por 50.000 y 20 por 70.000, para determinar el total de dinero que reciben los 80 operarios. Luego se divide ese total por 80, dando como sueldo medio $ 55.000. Alternativa C. Incorrecta. El error se produce al sacar el promedio entre los dos sueldos pagados, es decir entre $ 50.000 y $ 70.000, sin considerar el número de operarios. Alternativa D: Incorrecta. Se determina el total de dinero a ganar por los operarios, pero luego se comete el error de dividir esta cantidad por 7, al ser una ganancia semanal. Alternativa E: Incorrecta. Se opta por el sueldo mayor sin ninguna justificación matemática. 3. ¿Cuál es el valor de la media en la tabla de notas siguiente, correspondiente a 10 alumnos? Notas 1-3 3–5 5–7 Frecuencias 1 3 6 Alternativa A: Incorrecta. Se obtiene la frecuencia total, que es 10, y se divide por 7, considerando que los datos dados son notas. Alternativa B. Incorrecta. No corresponde a la media aritmética el cuociente entre la frecuencia total y los tres intervalos formados. Alternativa C. Incorrecta. Se determina correctamente la frecuencia total, pero luego se divide por la cantidad de intervalos de la tabla que son 3. Alternativa D: CORRECTA. Se determina la marca de clase de cada intervalo y luego se efectúa el producto de ésta por la respectiva frecuencia, sumando los valores obtenidos. Finalmente se 2 1 4 3 6 6 divide por el total de casos que son 10, o sea 5 10 Alternativa E: Incorrecta. Diversos procedimientos erróneos llevan a optar por esta alternativa. 4. En la serie de números 2, 4, 4, 5, 5, 5, 17, el valor de la moda es(son): Alternativa A: Incorrecta. La moda corresponde al valor con mayor frecuencia, en este caso, 2 y 17 son los que tienen menor frecuencia. Alternativa B. Incorrecta. El 4 tiene frecuencia 2 y como existe otro valor con más frecuencia, no puede ser moda. Alternativa C. CORRECTA. La moda es el valor con mayor frecuencia, o sea, el que más veces se repite. Alternativa D: Incorrecta. Para que los valores 4 y 5 sean moda, deben tener la mayor e igual frecuencia de todos los datos dados. Alternativa E: Incorrecta. Este valor corresponde a la media aritmética y no a la moda. 5. Queremos construir un gráfico circular con la cantidad de veces que ha salido cada vocal en la página de un libro. ¿Cuántos grados le corresponden a la letra “a” en el gráfico? Vocales a e i o u Frecuencia 10 13 4 2 1 Alternativa A: Incorrecta. Este valor corresponde a la frecuencia y no a los grados en el gráfico circular. Alternativa B. Incorrecta. Error en la operación al simplificar, lleva a obtener 12° para la letra “a” en el gráfico a construir. Alternativa C. Incorrecta. Se consideran 180° y no 360° que es lo correcto. Alternativa D: CORRECTA. El total de veces que han salido las vocales son 30 y corresponden a 10 360 los 360° del gráfico circular. Luego la frecuencia 10 de “a” equivale a 120 30 Alternativa E: Incorrecta. Error de planteamiento lleva a optar por esta alternativa. 6. En un curso hay n 30 n 10 alumnos y en otro curso alumnos, entonces el promedio de n n alumnos es: Alternativa A: Incorrecta. Error en la operatoria algebraica lleva a obtener esta alternativa. Alternativa B. Incorrecta. Se determina la suma de ambos cursos, pero luego falta determinar el promedio. Alternativa C. Incorrecta. Se simplifican las n de las expresiones dadas, no pudiendo hacerse, lo que lleva al error de optar por esta alternativa. Alternativa D: Incorrecta. Se simplifican las n de las expresiones dadas, no pudiendo hacerse, y luego se determina el promedio con las cantidades obtenidas, lo que lleva al error de optar por esta alternativa. Alternativa E: CORRECTA. Se suman las expresiones algebraicas que representan a los alumnos 2n 20 2n 20 2n 20 10 de cada curso y luego se determina su promedio, o sea, :2 1 n 2n 2n 2n n 7. En una tabla de frecuencias el intervalo 20 – 40, tiene frecuencia 18, la marca de clase es: Alternativa A: Incorrecta. Corresponde al total de casos en el intervalo 20-40 y no a la marca de clase que es el valor medio del intervalo. Alternativa B. Incorrecta. El valor menor del intervalo no corresponde a la marca de clase, ya que este es el valor medio de él. Alternativa C. CORRECTA. La marca de clase corresponde al valor medio del intervalo, o sea, 20 40 60 30 2 2 Alternativa D: Incorrecta. El valor mayor del intervalo no corresponde a la marca de clase, ya que este es el valor medio de él. Alternativa E: Incorrecta. Se suman los valores extremos del intervalo, pero ese valor no corresponde a la marca de clase. 8. La media de seis elementos es 10. Sabiendo que cinco de ellos son 8, 12, 13, 5 y 9; hallar el elemento que falta. Alternativa A: Incorrecta. El error se produce al sumar los valores dados con la media y dividirla por los 6 datos del enunciado. Alternativa B. CORRECTA. Para determinar el elemento que falta se debe plantear que 8 12 13 5 9 x 10 , de donde 47 + x = 60 y x = 13. 6 Alternativa C. Incorrecta. Se suman los elementos dados y se le resta la media, este error lleva a obtener 37. Alternativa D: Incorrecta. Sólo corresponde a la suma de los datos dados. Alternativa E: Incorrecta. Error de operatoria algebraica lleva a que 47 + x = 60 se resuelva como 47x = 60. 9. Un alumno obtiene en tres pruebas parciales las siguientes notas: 7, 5 y 3. En el examen final consigue un 6. Si esta nota final tiene doble valor que las parciales, ¿cuál será su nota media? Alternativa A: Incorrecta. No se considera en la suma el valor doble de la nota final, se resuelve 7 53 6 4,2 5 Alternativa B. Incorrecta. No se considera en la suma el valor doble de la nota final, se resuelve 7 53 6 5,2 4 Alternativa C. CORRECTA. Se suman las notas parciales y la del examen final que es doble, obteniéndose 27, la que al dividirla por 5, resulta 5,4 como nota media. Alternativa D: Incorrecta. Se saca primero el promedio entre las notas parciales y luego el 5 6 6 17 promedio, considerando el examen, o sea, 5,6 3 3 Alternativa E: Incorrecta. Se consideran todas las notas como corresponde, pero luego se divide por 4 y no por 5 que es lo correcto. 10. Si la única moda de los siguientes datos: 5, 5, 7, x, 7, 7, 8, 8, 9, x; es 5, entonces el valor de x es: Alternativa A: CORRECTA. Si 5 es la única moda, necesariamente el valor de x debe ser 5, para que sea el valor con mayor frecuencia de los dados. Alternativa B. Incorrecta. Corresponde a la media de los datos dados. Alternativa C. Incorrecta. Se opta por el 7 que es el que tiene más frecuencia de los datos dados. Alternativa D: Incorrecta. Se opta por el 8, pensando que al agregarle dos valores 8 más, pasa a ser la moda. Alternativa E: Incorrecta. Se opta por el de menor frecuencia, demostrando no conocerse el significado de moda estadística.