1 INDICE . PARTE II. ELEMENTOS DE PROBABILIDAD Y ESTADÍSTICA 1. Estadística Descriptiva 1.1 Introducción 1.2 Organización de los datos de un conjunto 1.3 Distribuciones de frecuencias 1.3.1 Definición de distribución de frecuencia. Terminología 1.3.2 Reglas generales para formar distribuciones de frecuencia 1.3.3 Ejercicios 1.4 Representación grafica de los datos de un conjunto 1.4.1 Variables Cualitativas 1.4.2 Variables Cuantitativas Discretas 1.4.3 Variables Cuantitativas Continuas 1.4.4 Ejercicios 1.5 Medidas de tendencia central 1.5.1 La media aritmética (Media Ponderada) 1.5.2 La moda 1.5.3 La mediana 1.5.4 Ejercicios 1.6 Medidas de dispersión 1.6.1 Amplitud (recorrido o rango) 1.6.2 Desviación típica (o estándar).Varianza 1.6.3 Ejercicios 1.7 Medidas de Posición 1.7.1 Cuantiles(cuartiles, deciles y percentiles) 1.7.2 Ejercicios 2 PARTE II. ELEMENTOS DE PROBABILIDAD Y ESTADISTICA 1. ESTADÍSTICA DESCRIPTIVA 1.1 INTRODUCCION La estadística se puede definir como la ciencia encargada de recopilar, organizar e interpretar conjuntos de datos, de manera que pueda llevar a conclusiones válidas. Los datos se obtienen (de una muestra o población) observando o experimentando. - La primera parte de la definición: recopilar, organizar e interpretar conjuntos de datos se llama “Estadística Descriptiva”. - La segunda parte: interpretar datos de manera que pueda llevar a conclusiones válidas se llama “Estadística Inferencial”. Nos ocuparemos de la Estadística Descriptiva. Cuando el número de datos es relativamente grande, resulta conveniente, para facilitar su interpretación, primero organizarlos y luego representarlos gráficamente. 1.2 ORGANIZACIÓN DE LOS DATOS DE UN CONJUNTO Los datos recopilados se analizan de acuerdo con una característica: “CUALITATIVA”, por ejemplo, el estado civil, sexo y nacionalidad de una persona; calidad de un plaguicida, como dañino o no dañino para la salud. Cuando la característica es “CUANTITATIVA” se distinguen dos casos: características discretas, como el número de hijos en la familia. En este caso la variable toma valores aislados, 0, 1, 2, 3, etc. Características continuas, como el peso y la estatura de una persona. Aquí la variable en consideración toma todos los valores reales en un intervalo. 1.3 DISTRIBUCIONES DE FRECUENCIAS 1.3.1 DEFINICION DE FRECUENCIA Y TERMINOLOGÍA Definición: Las distribuciones de frecuencias son disposiciones tabulares de los datos, por clases con sus respectivas frecuencias absolutas. Terminología: CLASES. (Para una característica continua): Son intervalos abiertos o cerrados. Deben ser exhaustivos y excluyentes; es decir, tales que se elimine la posibilidad Lic. Mauro H. Henríquez Rauda 3 de que un dato dado no corresponda a clase alguna o que pueda quedar incluido en más de una. FRECUENCIA ABSOLUTA: Es el número de datos que pertenecen a la clase. Ejemplo 1. Distribución de frecuencias de puntajes obtenidos por 120 estudiantes en un examen de matemática. Clase 1ra. 2da. 3ra. 4ta. 5ta. 6ta. 7ma. Puntajes (x) 28 - 32 33 - 37 38 – 42 43 – 47 48 – 52 53 – 57 58 - 62 Total Frecuencias Absolutas 10 15 20 35 19 12 9 120 - Los números que definen una clase: 28-32, 33-37, etc. se llaman Límites de Clase. Los valores a la izquierda: 28, 37, etc. se llaman Limites Inferiores aparentes, los valores a la derecha: 32, 37, etc. son los Limites Superiores aparentes de la clase. - La diferencia entre el límite superior (ls) y el límite inferior (li), más 1, es un Intervalo de Clase (o Amplitud de Clase); y se denota por ic . En símbolos: - i c = ls – l i + 1 - Marca de clase o punto medio: Es la mitad de la suma de los límites de la clase. Los datos que corresponden a una variable continua, generalmente no son medidas exactas. Así decimos por ejemplo que 58 es un valor que está entre 57.5 y 58.5; el primero es el límite real inferior y el segundo es el límite real superior. Para estas distribuciones ic = lrs – lri. A continuación se presenta la distribución de frecuencias del ejemplo anterior, con límites reales. Ejemplo 2. Clase 1ra. 2da. 3ra. 4ta. 5ta. 6ta. 7ma. 27.5 32.5 37.5 42.5 47.5 52.5 57.5 Puntajes a menos de 32.5 a menos de 37.5 a menos de 42.5 a menos de 47.5 a menos de 52.5 a menos de 57.5 a menos de 62.5 Total Frecuencias Absolutas 10 15 20 35 19 12 9 120 Lic. Mauro H. Henríquez Rauda 4 En general, la distribución de frecuencias para una muestra de tamaño n y un número k de clases, con frecuencias fk, respectivamente, se representa así: Clase clase 1 clase 2 Frecuencia Absoluta F1 F2 clase i Fi clase k Total Fk n k La frecuencia relativa es fi/n, donde 0 ≤ fi/n ≤ 1 y “ fi / n = 1. i 1 Cuando fi/n se multiplica por 100, se llama frecuencia porcentual. La frecuencia acumulada menor que fi se denota por Fi y es la suma de las frecuencias absolutas que van desde la clase 1 hasta la clase i. En símbolos: Fi = f1 +f2 + f3 +…+ fi Ejemplo 3. Distribución de frecuencias porcentuales y acumuladas, basada en los datos que aparecen en la ejemplo 1. Puntajes (x) 28 - 32 33 - 37 38 - 42 43 - 47 48 - 52 53 - 57 58 - 62 Frecuencias absolutas 10 15 20 35 19 12 9 Frecuencia porcentual 8.33 12.50 16.67 29.17 15.83 10.00 7.50 fa 10 25 45 80 99 111 120 Fia menor que 8.33 20.83 37.50 66.67 82.50 92.50 100.00 Fia más que 100 91.67 79.17 62.50 33.33 17.50 7.50 Con ésta distribución de frecuencias podemos tener, entre otras, las siguientes informaciones: - El 29.17 % de los estudiantes obtuvieron puntaje entre 43 y 47. El 61.67 % sacaron puntajes entre 38 y 52. La Fa, 45, que aparece en la tercera clase significa que 45 estudiantes sacaron puntajes de 42 o menos. El 17.5 % de estudiantes obtuvieron 53 y más puntos. Lic. Mauro H. Henríquez Rauda 5 1.3.2 REGLAS GENERALES PARA FORMAR DISTRIBUCIONES DE FRECUENCIAS 1. 2. 3. Determinar el mayor y el menor de todos los datos, hallando así el rango (diferencia entre ambos). Dividir el rango en un número adecuado de intervalos de clase del mismo tamaño (de igual amplitud). Mediante una hoja de recuentos, determinar el numero de datos que caen dentro de cada intervalo de clase; esto es hallar la frecuencia de clases. 1.3.3 EJERCICIOS 1. A continuación se le presenta las calificaciones de un examen de matemática, de un grupo de 40 estudiantes. 6.7 6.3 8.7 7.9 8.8 9.2 8.6 8.3 7.8 4.1 6.6 6.8 7.7 4.6 7.6 8.1 9.2 8.4 8.6 7.0 6.0 7.7 8.1 9.8 7.5 8.1 8.2 8.7 7.8 7.0 6.1 9.4 8.1 5.2 7.9 8.2 7.7 7.7 7.0 7.4 a) Transforme la serie simple en una distribución de clases y frecuencias, utilizando ic = 0.5. b) Haga lo mismo utilizando ic = 0.7. c) Determine las marcas de clase . 2. Con los datos del ejercicio anterior, utilizando un ic = 0.7 calcule: a) Las frecuencias relativas. b) Las frecuencias relativas acumuladas “menos que” y “mas que”. c) Haga un comentario de ésta variable. 3. Utilizando la siguiente tabla: Estatura en cm 178 –184 171 –177 164 - 170 157 -163 150 - 156 Total f 4 10 15 8 3 40 Fa“menos que” Fa “más que” 40 36 26 11 3 4 14 29 37 40 f% 10.00 25.00 37.50 20.00 7.50 Fa %“más que” 100.00 90.00 65.00 27.50 7.50 Fa %“menos que” 10.00 35.00 72.50 92.50 100.00 6 Lic. Mauro H. Henríquez Rauda a) ¿Qué % de personas tienen estaturas de más de 1.70 metros?. b) ¿Qué % de personas tienen estaturas de 1.64 o más metros?. c) ¿Qué % de personas tienen estaturas de menos de 1.64 metros?. d) ¿Cuántas personas tienen estaturas debajo de 1.64 metros ?. e) ¿Cuántas personas tienen estaturas arriba de 1.63 metros ?. f) ¿Qué % de personas tienen estaturas entre 1.78 y 1.84 metros inclusive ?. 4) Dada la siguiente distribución de frecuencias: Xi 80 - 81 82 – 83 84 – 85 86 – 87 88 - 89 90 - 91 f 6 14 30 33 13 4 a) Calcule las frecuencias acumuladas del tipo “menos que” y ”más que”. b) Calcule el % de datos de 87 o menos. c) Calcule el % de datos mayores o iguales a 82. d) Calcule el % de datos mayores o iguales a 82 pero menores o iguales que 89 5. A continuación se presenta los resultados del rendimiento escolar de los alumnos de dos secciones A y B de un sexto grado de una escuela: Calificaciones 1-2 3-4 5-6 7-8 9-10 F (sección A) 2 5 15 5 3 F (sección B) 2 8 22 9 5 Cree usted que la sección B, ha salido mejor que la sección A, ya que en la sección B hay 22 alumnos cuyas calificaciones están entre 5 y 6, mientras que en la sección A sólo hay 15 alumnos entre esas calificaciones. Justifique su respuesta. Sugerencia: Transforme las frecuencias absolutas, en frecuencias relativas. 7. La siguiente información corresponde al peso, en libras, de un grupo de 50 estudiantes. 7 Lic. Mauro Henríquez Rauda 100 116 124 131 140 103 117 124 131 141 113 118 124 131 142 110 117 124 132 145 110 117 127 133 148 107 120 125 134 146 108 117 125 135 145 110 121 128 136 162 114 120 128 138 152 115 120 130 138 150 Transforme esta serie en una distribución de clases y frecuencias, con 9 clases. 8. Transforme la serie del ejercicio anterior en una distribución de clases y frecuencias, utilizando un intervalo de clase de ic = 10. 9. Dada la siguiente distribución de clases y frecuencias: x 100-106 107-113 114-120 121-127 128-134 135-141 142-148 149-155 156-162 Total F 2 6 11 8 9 6 5 2 1 50 Calcule las siguientes columnas: frecuencia relativa, frecuencia relativa acumulada y marcas de clase. 10. A continuación se presentan 40 mediciones del diámetro de arandelas: 0.19 0.35 0.37 0.25 0.29 0.19 0.17 0.20 0.30 0.32 0.37 0.22 0.27 0.27 0.26 0.27 0.32 0.39 0.37 0.32 0.22 0.32 0.27 0.27 0.22 0.24 0.32 0.34 0.15 0.27 0.29 0.27 0.22 0.23 0.26 0.26 0.27 0.28 0.28 0.27 Presente ésta información mediante una distribución de clases y frecuencias, usando un intervalo de 0.05. Comience la primera clase con 0.15 como límite aparente inferior. 8 Lic. Mauro H. Henríquez Rauda 1.4 REPRESENTACION GRAFICA DE LOS DATOS DE UN CONJUNTO La selección apropiada de una gráfica puede relacionarse con el carácter de la variable en estudio. Los principales tipos de gráficas que corresponden a las variables cualitativas , cuantitativas discretas y continuas, se pueden ver en el cuadro siguiente: Variable Tipo de Gráfica Barras separadas Circular o de Pastel Barras Circular o de Pastel Histograma Polígono de frecuencias Cualitativa Cuantitativa discreta Cuantitativa continua 1.4.1 VARIABLES CUALITATIVAS. BARRAS SEPARADAS. Ejemplo 4. Una pequeña encuesta estudiantil sobre preferencias de bebidas gaseosas produjo los siguientes resultados: Pepsi Salva Sprite Sprite salva coca coca coca fanta pepsi salva coca fanta fanta pepsi coca coca pepsi coca coca fanta pepsi coca coca fanta pepsi coca sprite fanta coca coca pepsi salva sprite pepsi fanta pepsi pepsi coca salva salva coca salva pepsi salva sprite pepsi coca coca fanta Después del conteo, la distribución en clases y frecuencias queda como sigue: i 1 2 3 4 5 bebida Coca Fanta Pepsi Salva Sprite total fi 17 8 11 8 6 50 fri % 34 16 22 16 12 Fi % 34% 50% 72% 88% 100% 9 Lic. Mauro H. Henríquez Rauda Grafica de barras separadas para las compras de bebidas gaseosas. CIRCULAR Grafica circular para las compras de bebidas gaseosas. 1.4.2 VARIABLES CUANTITATIVAS DISCRETAS Ejemplo 5. 10 Distribución de frecuencias del número de maestros en una muestra de escuelas públicas, en Chalatenango. Lic. Mauro H. Henríquez Rauda Número de maestros 5 6 7 8 9 10 11 12 Cantidad de escuelas 6 8 10 12 8 11 7 4 1.4.3 VARIABLES CUANTITATIVAS CONTINUAS Un histograma es una gráfica constituida por barras verticales no separadas(límites reales). Para construirlo se marcan en el eje horizontal las clases y en el eje vertical las frecuencias. Sobre el intervalo correspondiente a cada clase se dibuja una barra de área proporcional a su frecuencia. Ejemplo 6. Clasificación de 40 alumnos de una escuela rural de acuerdo a su peso en libras. 11 Clases Frecuencia Puntos medios 29.5 – 34.5 34.5 – 39.5 39.5 – 44.5 44.5 – 49.5 49.5 – 54.5 54.5 – 59.5 59.5 – 64.5 64.5 – 69.5 69.5 – 74.5 Total 1 3 8 9 7 4 3 3 2 40 32 37 42 47 52 57 62 67 72 Frecuencia acumulada “menos de” 1 4 12 21 28 32 35 38 40 Frecuencia relativa 0.025 0.075 0.200 0.225 0.175 0.100 0.075 0.075 0.050 1.000 La comparación de dos o mas distribuciones de frecuencias resulta fácil, si en lugar de levantar una barra sobre el intervalo correspondiente al la clase, se marca un punto con abscisa el punto medio y como ordenada la frecuencia. Luego los puntos se une con segmentos de recta y la figura resultante se denomina polígono de frecuencias. El área bajo el polígono de be ser igual al área comprendida por el histograma. Para lograr esto, usualmente el polígono se prolonga tal como puede apreciarse en la gráfica siguiente, procediendo como si existiera una clase adicional al principio y otra al final, ambas con frecuencia de cero. 12 Lic. Mauro H. Henríquez Rauda 1.4.4 EJERCICIOS PROPUESTOS: Ver guía de ejercicios. 1.5 MEDIDAS DE TENDENCIA CENTRAL 1.5.1 LA MEDIA ARITMETICA Entre las medidas de tendencia central, la mas popular es la “media aritmética”, que comúnmente se llama “promedio” DEFINICION: La media aritmética de un conjunto de N datos: x1, x2, ….., xN, se denota por x y se define así: 13 N Suma de todos los datos x Número total de datos xi x1 x 2 .....x N i 1 = N N NOTA: El símbolo es la letra griega “sigma mayúscula” que corresponde a la letra S. EJEMPLO 1: Calcular la media de 8, 16, 4, 12 y 10 SOLUCION: 8 16 4 12 10 50 10 5 5 Advierta: la media es uno de los datos. x Lic. Mauro H. Henríquez Rauda EJEMPLO 2: Calcular la media de 8, 16, 4, 12 y 5 SOLUCION: 8 16 4 12 5 45 9 5 5 La media, 9, no es uno de los datos Si los números x1 x2 .....x N ocurren f1 , f 2 ,....., f N veces, respectivamente (o sea x con frecuencias f1 , f 2 ,....., f N ), la media aritmética es N f x f x ........f N x N x 1 1 2 2 f1 f 2 ..........f N fi x i i 1 N f i 1 N f x i i 1 i N i EJEMPLO 3: 5,8,6 y 2 ocurren con frecuencias 3,2,4 y 1 respectivamente. Hallar la media. SOLUCION: 3(5) 2(8) 4(6) 2 15 16 24 2 57 x 5.7 3 2 4 1 10 10 A veces asociamos con los números x1 , x2 ,....,.x N , unas ponderaciones (o pesos) w1 , w2 ,.....,wN , dependiente de la relevancia asignada a cada número (no a su frecuencia). En este caso: N w x w2 x 2 .....wN x N x 1 1 w1 w2 .....wN w x i 1 N i w i 1 i i 14 Se llama “media aritmética ponderada” con pesos w1, w2,......, wn EJEMPLO 4: El primer examen parcial vale el 20%, el segundo parcial, el 25%, las tareas el 30% y el examen final el 25% de la nota final. Si un estudiante tiene las calificaciones 1er. P: 3.0; 2º.P: 5.8; tareas: 8.0 y EF: 6.4, ¿Cuál es la media aritmética ponderada (nota final)?SOLUCION: x (0.2)( 3.0) (0.25)( 5.8) (0.3)(8.0) (0.25)( 6.4) 6.05 0.2 0.25 0.30 0.25 VERIFICANDO SU COMPRENSIÓN 1. Calcule la media aritmética para el conjunto de datos. a) 6,8,3,9 y 5 b) 6,6,8,8,3,9,9,9,5 y 5 Lic. Mauro H. Henríquez Rauda 2. Calcule la media aritmética ponderada para el conjunto de datos 3.0, 2.0, 6.5 y 8.4 con los pesos: 20%, 20%, 30% y 30% respectivamente. 1.5.2 LA MODA DEFINICION: La moda de un conjunto de números es el valor que ocurre con mayor frecuencia (valor más frecuente) NOTA: La moda de un conjunto puede no existir, e incluso no ser única, en caso de existir. EJEMPLO 5. El conjunto 1,2,3,3 y 4 tiene moda 3 EJEMPLO 6. El conjunto 1,2,3, y 4 no tiene moda EJEMPLO 7. El conjunto 1,1,2,2,3 y 4 tiene dos modas: 1 y 2; se dice que es bimodal. 1.5.3 LA MEDIANA DEFINICION: La mediana (med) de un conjunto de números ordenados en sentido creciente (decreciente) es: el valor central, si el número de datos es impar; o la media de los valores centrales, si el número de datos es par. EJEMPLO 8. El conjunto de números 3,4,4,5,6,8,8,8 y 10 tiene mediana 6 68 7 EJEMPLO 9. El conjunto de números 5,5,6,8,9 y 10 tiene mediana x 2 15 EJEMPLO 10. Calcular la mediana del conjunto: 8,5,10,7,6,9,2,2,5 y 6 SOLUCION: Primero se ordenan los números (orden creciente): 2,2,5,5,6,6,7,8,9 y 10. Como hay un número impar de datos, la mediana es 6 (la mediana es uno de los datos) EJEMPLO 11. Calcular la mediana del conjunto: 7,4,7,4,5,5,6,6,6,3,3,2,1 y 1 SOLUCION: Primero se ordenan los números (orden creciente): 1,1,2,3,3,4,4,5,5,6,6,6,7 y 7. 45 4.5 (la mediana no es Como hay un número par de datos, la mediana es 2 uno de los datos) VERIFICANDO SU COMPRENSION Calcule la mediana a cada uno de los conjuntos de números dados. a) 7,5,6,4,4,4,3,3,1 y 10 b) -4, -6, -1, 1, 4, 10 y 3 Lic. Mauro H. Henríquez Rauda 1.5.4 EJERCICIOS 1. Explicar que es una medida de tendencia central; cuales son y como se definen. 2. ¿Cuál de las siguientes fórmulas se utiliza para calcular la media de x1 , x2 y .x3 ? x x 2 .x3 x .x 3 a) x x1 x2 .x3 b) x 1 c) x 1 3 2 3. Encuentre la media, mediana y moda del conjunto de datos a) 1,2,3,4 y 5 c) 4,7,10,6,9 y 10 b) 12,13,14 y 15 d) 79,90,95,95 y 96 e) 9,12,8,10,9,11,12,15,20,9,14,15,21 y 10 4. Considérese el conjunto de datos: 4,5,6,3,4,3,3,31 y 4. a) Encontrar la media b) Hallar la mediana 5. Elimine el 31 del conjunto de datos en 4. c) encontrar la media; d) Hallar la mediana e)Comparar los resultados a), b), c) y diga ¿Cuál de las medidas de tendencia central, la media o la mediana, es mejor para evitar la distorsión producida por un valor extremo?. 6. Se pidió a 30 reclutas de la Academia de Policía se sometieran a una prueba que mide la capacidad para el ejercicio. Se midió esta capacidad de cada recluta (en minutos) 25 27 30 33 30 32 30 34 30 27 26 25 29 31 31 32 34 32 33 30 16 27 30 31 36 28 30 31 26 29 32 Calcular la moda, media y mediana. Lic. Mauro H. Henríquez Rauda 17 1.6 MEDIDAS DE DISPERSION La localización o tendencia central no necesariamente proporciona información para describir datos de manera adecuada. Para el caso, consideramos los siguientes ejemplos. EJEMPLO 1. Suponga que en un hospital, el nivel de azúcar en la sangre de cada paciente se mide tres veces por semana. En cierta semana los registros de dos pacientes indican: Paciente A: 90, 100 y 110 miligramos por decilitro Paciente B: 40, 100 y 160 miligramos por decilitro El promedio de ambos pacientes es 100. En efecto: 90 100 110 300 100 3 3 40 100 160 300 100 Paciente B: 3 3 Observe la diferencia en variabilidad. Mientras que el paciente A es bastante estable, el nivel del paciente B fluctúa ampliamente. Este resultado deberá tomarse en cuenta cuando se prescriba su tratamiento. Paciente A: COMENTARIO: Un paciente con un nivel de azúcar en la sangre de 40 mg/dl, convulsiona; con un nivel de 160 mg/dl podría ser diabético. EJEMPLO 2. Se va a seleccionar a un atleta para que represente a la Universidad en los juegos estudiantiles, en la prueba de los 100 metros. Se tienen dos candidatos: A y B. Para decidir por uno de ellos se les toman los tiempos que se tardan en recorrer los 100 metros en cinco ocasiones. A continuación de detallan: Atleta A: 11.0, 11.8, 11.6, 11.3 y 12.3 segundos Atleta B: 11.5, 11.6, 11.6, 11.8 y 11.5 segundos El tiempo promedio de ambos atletas es 11.6 segundos (verificarlo) pero el grado de variabilidad del atleta B es menos que el del atleta A. Por tener menos altibajos, el atleta B tendría que ser el seleccionado. Casos como los anteriores (medicina, deportes) muestran la necesidad de descripciones estadísticas que midan el grado en que se dispersan (o varían) los Lic. Mauro H. Henríquez Rauda 18 datos, respecto a su centro; es decir; la necesidad de las medidas de dispersión. Dos de ellas son: la amplitud (o rango) y la desviación típica. 1.6.1 AMPLITUD (RECORRIDO O RANGO) DEFINICION: La amplitud (recorrido o rango) de un conjunto de datos numéricos es la diferencia entre el mayor y el menor de todos ellos. EJEMPLO 3. En el ejemplo 1, el rango para el nivel de azúcar en la sangre del paciente A es 110 – 90 = 20 y de 160 – 40 = 120, para el paciente B. En el ejemplo 2, el rango para el tiempo del atleta A es de 12.3 – 11.0 = 1.3 segundos, y de 11.8 – 11.5 = 0.3 segundos, para el atleta B. 1.6.2 DESVIACION TIPICA (O ESTANDAR) El rango se utiliza principalmente como indicación fácil y rápida de la variabilidad, pero por lo general, no es medida de dispersión útil. Su principal inconveniente radica en que nada se dice acerca de la dispersión de los valores que están entre el mayor y el menor valor. Por ejemplo, cada uno de los conjuntos de datos siguientes: Conjunto A: 3,4,5,6,11,16,17,18 y 19 Conjunto B: 3,8,9,10,11,12,13,14 y 19. Tiene un rango de 19 - 3 = 16 ( y una media de 11); pero la dispersión (como se ve en el diagrama adjunto) es completamente distinta en cada caso. media Conjunto A: 3 4 5 6 11 16 17 18 19 media Conjunto B: 3 8 9 10 11 12 13 14 19 Observamos que la dispersión en un conjunto de datos: Es pequeña si los datos están ubicados muy cerca alrededor de su media aritmética y Es grande si los datos están ubicados distantes alrededor de su media. Por lo tanto, parece razonable tener una medida para la dispersión de un conjunto de datos, en términos de las cantidades por las que difieren de su Lic. Mauro H. Henríquez Rauda 19 media aritmética. A estas cantidades les asignaremos un nombre, en la siguiente definición. DEFINICION: Si un conjunto de datos x1 , x2 ,.....,.x N tiene la media x , las diferencias x1 x, x2 x,........,.x N x , se llaman “desviaciones de la media”. DEFINICION: La desviación típica de una población de N datos: se denota por , (letra griega sigma) y se define como N (x i 1 i x) 2 N Si x1 , x2 ,.....,.x N ocurren con frecuencias f1 , f 2 ,.....f N respectivamente, la desviación típica puede expresarse como N f (x i 1 i i N x) 2 donde N = N f i 1 i En palabras: es la raíz cuadrada de la media aritmética de los cuadrados de las desviaciones. DEFINICION: La desviación típica de una muestra de N datos: se denota por S y se define como N S (x i 1 i x) 2 N S para datos sin agrupar N 1 f (x i 1 i i x) 2 N 1 para datos agrupados en tablas de frecuencia NOTA: “Muestra” es el conjunto de datos que se pueden utilizar, en forma razonable, para hacer generalizaciones acerca de la población de la cual provienen. ADVIERTA: Las fórmulas para S se obtienen escribiendo N-1 en el denominador de las formulas para . CASO 1: Desviación típica para datos sin agrupar EJEMPLO 1. Considérese cada una de las siguientes muestras: Muestra A: 3,4,5,6,11,16,17,18 y 19 Muestra B: 3,8,9,10,11,12,13,14 y 19 Lic. Mauro H. Henríquez Rauda 20 Obtenga la desviación típica de cada muestra e indique cuál de ellas es la que presenta mayor dispersión. SOLUCION. Para la muestra A. 3 4 5 6 11 16 17 18 19 99 x 11 Paso 1. 9 9 Paso 2. El cálculo de 9 S ( xi x) 2 se facilita con una tabla como la que i 1 sigue: Variable x Desviación ( xi x) Cuadrado de la desviación ( xi x)2 -8 -7 -6 -5 0 5 6 7 8 64 49 36 25 0 25 36 49 64 3 4 5 6 11 16 17 18 19 9 S ( xi x) 2 = 64 + 49 + 36 + 25 + 0 + 25 + 36 + 49 + 64 = 348 y i 1 9 S (x i 1 i x) 2 N 1 = 348 = 9 1 348 = 6.6 9 1 Para la muestra B 3 8 9 10 11 12 13 14 19 99 x 11 Paso 1. 9 9 Paso 2. Calculamos 9 (x i 1 i x) 2 Variable x Desviación ( xi x) Cuadrado de la desviación ( xi x)2 3 8 9 10 11 12 -8 -3 -2 -1 0 1 64 9 4 1 0 1 21 13 14 19 9 (x i 1 i x) 2 = 64 + 9 + 4 + 1 + 0 + 1 + 4 + 9 + 64 = 156 9 S 2 3 8 (x i 1 i x) 2 N 1 = 3156 = 9 1 4 9 64 y 3156 = 4.4 9 1 Puesto que la desviación típica del conjunta A es mayor que la del conjunto B, concluimos que la muestra A es la más dispersa. DEFINICION: La varianza de un conjunto de datos se define como el cuadrado de la desviación típica, de modo que 2 y S 2 representan la varianza de la población y la varianza de la muestra, respectivamente. VERIFICANDO SU COMPRENSION 1. Determine cuál de las siguientes muestras es la más dispersa. a) 6,3,12,5,8 y 9 b) 3,5,6,7,4,10 y 8 2. Determine cuál de las siguientes muestras es la menos dispersa a) 7,9,3,6,5,4 y 2 b) 8,7,4,11,2 y 5 3. Hallar, en cada caso, la desviación típica y la varianza a) 3,6,2,1,7 y 5 b) 3,2,4,6,5 y 8 CASO 2: Desviación típica para datos agrupados EJEMPLO 2. Supóngase que en 9º grado hay 40 alumnos, cuyas edades se resumen en la siguiente tabla de frecuencias Edades x 14 15 16 17 Hallar el valor de S. No. de alumnos (f) 6 15 16 3 SOLUCION Para facilitar los cálculos usamos la siguiente tabla Lic. Mauro H. Henríquez Rauda 22 X f f (x) ( xi x) 2 f ( xi x) 2 f ( xi x) 2 14 15 16 17 TOTAL 6 15 16 3 40 84 225 256 51 616 -1.4 -0.4 0.6 1.6 1.96 0.16 0.36 2.56 11.76 2.40 5.76 7.68 27.60 N 4 x i 1 f i xi N 616 15.4 40 S f ( x x) i 1 i i N 1 2 27.6 0.84 39 VERIFICANDO SU COMPRENSION 1. Hallar en cada caso, la desviación típica y la varianza. a) 3,2,4,6,2,8,5,2,4 y 4 b) 0,0,0,0,0,1,1 y 1 2. Hallar el valor de S para los datos agrupados en la siguientes tablas de frecuencia a) X 6 5 3 f 5 4 6 1.6.3 EJERCICIOS x 2 3 4 5 f 4 3 5 2 Seleccione la respuesta correcta 1. El recorrido de un conjunto de datos: a) Se obtiene con las desviaciones promedio de los datos y la media b) Es la diferencia entre el dato mayor y el dato menor c) Es una medida de tendencia central d) Es el promedio de la moda y la mediana 2. La desviación estándar de un conjunto de datos: a) Está cerca de cero si los datos están dispersos. b) Promedia las desviaciones entre cada dato y la media c) No toma en consideración todos los datos d) Promedia las desviaciones entre cada dato y la mediana 3. Explicar que es una medida de dispersión 4. Comparar la desviación estándar y el recorrido Lic. Mauro H. Henríquez Rauda 23 5. Explicar que representa la desviación estándar de un conjunto de datos 6. Si la desviación estándar fuese cero ¿qué podrías decir acerca del conjunto de datos? En los ejercicios 7 - 10. Encontrar el recorrido, la varianza y la desviación estándar del conjunto de datos 7. 1,2,3,4 y 5 9. 3,5,8,13 y 21 8. 21,22,23,24 y 25 10. 79,90,95,95 y 96 11. Realizar las operaciones indicadas con los siguientes datos 3,8,5,3,10,13 a) Encontrar el recorrido. b) Hallar la media. c) Determinar la desviación estándar poblacional. d) Determinar la desviación estándar muestral. 1.7 MEDIDAS DE POSICIÓN 1.7.1 CUANTILES Para muchos propósitos, es importante obtener valores que dividen un conjunto de datos ordenados, en fracciones especificas. LA mediana es un ejemplo de éste tipo de medida; ella divide al conjunto en dos partes iguales: La mitad de los valores son inferiores a la mediana y la otra mitad superiores. En forma similar se pueden calcular: - Los cuartiles, que son valores de la variable que dividen a conjunto en cuartas partes. Así, el primer cuartil, Q1, es un valor tal que una cuarta parte de los datos son menores que él y tres cuartas partes son mayores. Q2, es igual a la mediana y Q3, supera a los tres cuartos de los datos y solo es superado por un cuarto de ellos. Además de la mediana y los cuartiles pueden calcularse también lo deciles: D1, D2, ......D9, los cuales dividen al conjunto en décimas. Los percentiles: P1, P2,....P99, que lo dividen en centésimos. Todos éstos valores reciben el nombre de cuantiles y pueden resultar muy apropiados para apreciar la posición de los datos de un conjunto y su posición. Tanto la mediana como los cuartiles y los deciles constituyen casos particulares de los percentiles y pueden expresarse como percentiles. Por ejemplo: Mediana = P50, Q3 = P75, D4 = P40, etc. Lic. Mauro H. Henríquez Rauda 24 Resulta entonces que teniéndose una fórmula para el calculo de la posición de los percentiles, puede obtenerse con ella, la posición de cualquier cuantil. Para el calculo de la posición de los percentiles se debe, en primer lugar, ordenar los datos. Una vez hecho esto, puede aplicarse la fórmula siguiente: n La posición de k-ésimo percentil se encuentra calculando ( )k, donde n es el 100 número de datos. Sí el resultado es un número decimal, seleccione como indicador del orden al entero próximo superior y el percentil a localizar es Pi. Si el resultado es un entero seleccione como indicadores de orden al entero xi ( xi i) obtenido i y al siguiente i + 1. El percentil se obtiene haciendo Pk = 2 Ejemplo. Calcular Q2 y la mediana. Considérense para ello, los siguientes datos, que se refieren a los pesos de 40 estudiantes de una escuela rural y que se presentan en el orden en que fueron pesado los alumnos: 49 44 46 45 42 35 51 41 60 59 52 36 53 74 67 46 45 40 55 50 53 43 40 32 37 62 41 51 68 47 70 57 54 47 66 48 56 60 49 43 Así como están los datos resulta difícil sacar una conclusión, por lo tanto, como no son muchos, puede iniciarse el análisis haciendo una ordenación en forma creciente. 32 35 36 37 40 40 41 41 42 43 43 44 45 45 46 46 47 47 48 49 49 50 51 51 52 53 53 54 55 56 57 59 60 60 62 66 67 68 70 74 40 x 50 = 20 La posición de Q2 es igual a la posición de P50, la cual se obtiene así: 100 Los datos a localizar son: X20 y X21. El valor de Q2 es: Lic. Mauro H. Henríquez Rauda 25 X 20 X 21 50 53 = 51.5 2 2 La mediana es igual a P50 = Q2 = 51.5 Q2 = 1.7.2 EJERCICIOS . 1. Calcule los cuartiles uno, dos y tres en la siguiente serie simple: 0.10, 0.12, 0.15, 0.15, 0.18, 0.20, 0.25. 2. La siguiente distribución corresponde a salarios mensuales de un grupo de 56 personas. Salarios (x) 500-599 600-699 700-799 800-899 900-999 1000-1099 f 8 12 18 10 6 2 Calcule: a) El valor del cuartil uno. b) El valor del cuartil dos. c) El valor del cuartil tres. d) El valor del decil cinco. e) El valor del decil cinco. f) El valor del percentil ochenta. g) El valor del percentil cincuenta. h) El salario que limita el 20% superior de la distribución. i) El salario que se deja sobre sí, el 70% de los casos. j) Entre qué salarios está el 60% central de la distribución. 3. Determine la escala percentilar de la siguiente serie de puntajes de un examen. ____Xi f____ 30 1 25 5 38 10 40 4 45 2 4. Calcule el percentil del punto medio de la clase 700-799 de la distribución del ejercicio 2. Luego compruébelo. Lic. Mauro H. Henríquez Rauda