CONTENIDO INTRODUCCIÓN DEFINICIÓN DE ESTADÍSTICA ESTADÍSTICA DESCRIPTIVA CONCEPTOS BÁSICOS POBLACIÓN VARIABLE: Cualitativas o Categóricas y Cuantitativas (Discretas y Continuas) MUESTRA TAMAÑO MUESTRAL DATO DISTRIBUCIONES DE FRECUENCIAS FRECUENCIA ABSOLUTA FRECUENCIA RELATIVA FRECUENCIA ACUMULADA FRECUENCIA RELATIVA ACUMULADA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS MÉTODOS GRÁFICOS DIAGRAMA DE BARRAS DIAGRAMA DE SECTORES O DE PASTEL HISTOGRAMA MEDIDAS DESCRIPTIVAS DE POSICIÓN Y DISPERSIÓN MEDIDAS DE POSICIÓN MEDIDAS DE POSICIÓN CENTRAL MEDIA ARITMÉTICA MEDIANA MODA MEDIDAS DE POSICIÓN NO CENTRALES PERCENTILES CUARTILES MEDIDAS DE DISPERSIÓN MEDIDAS DE DISPERSIÓN ABSOLUTAS VARIANZA DESVIACIÓN TÍPICA RECORRIDO INTERCUARTÍLICO MEDIDAS DE DISPERSIÓN RELATIVAS COEFICIENTE DE VARIACIÓN DE PEARSON OTRAS MEDIDAS DESCRIPTIVAS TIPIFICACIÓN DE UNA DISTRIBUCIÓN DE FRECUENCIAS ESTADISTICA DESCRIPTIVA INTRODUCCION 1.1 DEFINICIÓN DE ESTADÍSTICA: es un conjunto de teorías y métodos desarrollados para la recopilación, representación y el uso de datos sobre una o varias características de interés con el objeto de tomar decisiones, extraer conclusiones o emprender acciones. 1.2 ESTADÍSTICA DESCRIPTIVA: es la parte de la estadística que se encarga de organizar, resumir y describir las características principales de los datos. Generalmente se resumen en forma tabular, grafica o numérica. El análisis se limita en si mismo a los datos coleccionados y no se realiza inferencia alguna o generalizaciones acerca de la totalidad de donde provienen esas observaciones. 1.3 ESTADÍSTICA INFERENCIAL: Es la que trata de estimar características de una población a través del estudio de una muestra. las 1.4 CONCEPTOS BÁSICOS: POBLACIÓN: Es una colección finita o infinita de elementos con características comunes. Ejemplo: las personas, libros de una biblioteca, etc. Algunas poblaciones son finitas y pueden conocerse; otras pueden ser infinitas y abstractas: Ej. el conjunto de hoteles, establecimientos comerciales de una ciudad o el conjunto de todas las piezas fabricadas por una máquina. VARIABLE: Toda característica que puede tomar diferentes valores (Ej. número de hijos, precio de la habitación) Las variables se suelen denotar por letras mayúsculas: X, Y,... Tipos de variables: 1. Cualitativas o Categóricas: aquellas que no son medibles, es decir, aquellas cuyas observaciones no tienen carácter numérico. Expresan cualidades o categorías. Ej. estado civil, sexo o profesión.(A las variables cualitativas también se les llama atributos). 2. Cuantitativas: aquellas que son medibles, es decir sus observaciones tienen carácter numérico. Estas se dividen a su vez en: •Discretas: toman valores enteros en un conjunto numerable. Ej. Número de habitaciones de un hotel, número de hijos de una familia, número de obreros de una fábrica. •Continuas: toman valores en un conjunto no numerable (los números reales o un intervalo). Ej. peso, estatura. MUESTRA: Es un subconjunto de la población. Se denota por n. DATO: cada valor observado de la variable. Si representamos por X a la variable, representaremos por xi cada dato diferente observado en la muestra, el subíndice “i” indica el lugar que ocupa si los ordenamos de menor a mayor. Prof. Simón Cabrera página 2 de 32 ESTADISTICA DESCRIPTIVA MEDICIÓN: La asignación o magnitud que se aplica a las categorías o clases de acuerdo a ciertas reglas o símbolos. Una medición se puede definir como la manera de obtener símbolos para representar propiedades de personas, objetos, eventos o estados cuyos símbolos tienen la misma relación relevante entre si igual a las entidades que representan. ESCALAS DE MEDICIÓN DE LAS VARIABLES Las escalas de medición son el conjunto de los posibles valores que determinada variable puede tomar. Por tal razón, los tipos de escala de medición están íntimamente ligadas con los tipos de variables a estudiar. Las magnitudes de las observaciones cuantitativas se conocen como los valores que una variable puede asumir. Dependiendo de la medición y de la esencia de las variables, se obtienen diversas clases de datos que originan diferentes escalas. Resulta imprescindible conocer el tipo de escala que representan los datos, debido a que, de su esencia dependen las técnicas estadísticas que se deberán aplicar para su análisis. Al elaborar estadísticas con datos y su característica es necesario contarlas, jerarquizarlas y medirlas, es por ello que, se utilizan las escalas de medición como el proceso de asignar números o establecer una correspondencia uno a uno entre objetivos y observaciones. Las escalas de medición sé clasifican de la siguiente forma: Escala Nominal, Escala Ordinal, Escala de Intervalos y Escalas de razón o Proporción. Escala de Medición Nominal: Consiste en clasificar a los elementos, personas, animales, etc, asignándoles símbolos o nombres. Los datos que se obtienen para una variable cualitativa se miden en una escala nominal y simplemente se clasifican en distintas categorías que no implican orden. La escala nominal es la forma más débil de medición porque no se puede aplicar operaciones aritméticas ni intentar el conteo de las diferencias dentro de una categoría determinada o especificar cualquier orden o dirección a lo largo de las diversas categorías. Propiedades de la Escala Nominal 1. No intervienen mediciones, ni escala, en vez de esto solo hay cuentas o conteos. 2. No existe un orden específico para esta categoría. 3. No presentan el cero. 4. No se basa en diferencia cuantitativa. Ejemplos: Una muestra de personas puede clasificarse con base en la religión profesada: (1) Cristianos; (2) Judíos; (3) Musulmanes; (4) Otros; y (5) Sin Creencia alguna. O bien podrían clasificarse según el sexo, el color de los ojos, algún partido político, etcétera. Otros ejemplos de escala nominal puede ser el numero de placa de los vehículos, los números de los teléfonos de una ciudad, la Cedula de Identidad de los habitantes de un país, etcétera. Prof. Simón Cabrera página 3 de 32 ESTADISTICA DESCRIPTIVA El tipo de operación estadística más utilizada en la escala nominal es el conteo de las frecuencias (distribuciones de frecuencias), con que se presentan las características en las unidades de las respectivas subclases. Estas frecuencias pueden ser presentadas con números absolutos, porcentajes y proporciones. Además, puede calcularse la moda, razones, tasas de incremento, y el coeficiente de contingencia. Tipos de gráficos: Diagrama de Barras. Escala de Medición Ordinal: Establece una relación de orden entre los elementos (personas, animales, objetos, etc.), en atención a una característica, sin que reflejen distancia entre ellos. La diferencia entre dos números ordinales no tiene significado cuantitativo, sólo expresan, por ejemplo, que una situación es mejor que otra, pero no dice cuanto es uno que el otro. La escala ordinal sigue siendo una forma de medición débil porque no se pueden hacer planteamientos numéricos significativos con respecto a las diferencias entre las categorías. Es decir, la ordenación establece sólo cuál categoría es “mayor”, “mejor” o “preferida”; y no se habla cuánto es “mayor”, “mejor” o más “preferida”.’Esta escala se emplea, cuando un estudio esta basado en ciertas normas que se asignan a un conjunto de objetos, personas o características o a un conjunto de categorías ordenadas. Las categorías de la escala se ordenan dé acuerdo con la cantidad de rasgos o características que representan cada una de ellas ya que la escala ordinal distingue los diferentes valores de la variable, ubicando las características en orden, desde la más alta hasta la más baja. La diferencia fundamental entre una escala nominal y una ordinal es que en la ordinal rige no sólo la relación de igualdad, de identidad, sino también la relación de “mayor que”. Propiedades de la Escala Ordinal 1. Las observaciones o elementos se les ordena en rangos o categorías diferentes. 2. Las categorías son mayores o menores que otras categorías, es decir, que existe una clasificación de mayor a menor (jerarquía). 3. Las categorías son mutuamente excluyentes y exhaustivas. 4. No presentan el cero. Ejemplos: Calificaciones de Estudiantes de Estadística en el Semestre 2005-2006 Calificaciones Excelente Sobresaliente Distinguido Bueno Satisfactorio Deficiente Muy Deficiente Prof. Simón Cabrera Nº de calificaciones 3 6 10 38 25 50 0 página 4 de 32 ESTADISTICA DESCRIPTIVA Se pueden clasificar los habitantes de una ciudad de acuerdo a su situación económica, a los estudiantes tomando en cuenta a su rendimiento académico, el orden jerárquico de los militares (Subteniente, Teniente, Capitán, Mayor, Teniente Coronel, Coronel, General) y la clasificación académica de los profesores universitarios (Instructor, Asistente, Agregado, Asociado, Titular), etcétera. Aunque la escala ordinal resulta en cierta forma más precisa que la nominal, no alcanza el grado de precisión deseado en una investigación. El tipo de operación estadística más utilizada en la escala ordinal es la mediana, percentiles, cuartiles, mínimo y máximo. Tipos de gráficos: Diagrama de barras (con un orden) y gráficos de caja. Escala de Medición de Intervalos: Tiene todas las características de una escala ordinal, además permite conocer la distancia entre dos números cualquiera. Esta escala se caracteriza por tener una unidad de medida y un origen (cero) arbitrario. La escala de intervalos a diferencia de la nominal y ordinal, es una escala efectivamente cuantitativamente. Una escala de intervalo es una escala ordenada en la cual la diferencia entre las mediciones es una cantidad significativa. La escala de intervalos posee además, de las características de la escala nominal y ordinal, la propiedad de que la distancia entre dos valores es de una magnitud conocida, lo que le permite a esta escala un mayor grado de perfección, ya que proporciona números que manifiestan diferencias palpables entre individuos, objetos o cosas. La razón entre dos intervalos es siempre independiente del punto cero y de la unidad que se emplee en la medición. En el caso de las escalas de intervalos las unidades de medición son iguales. Propiedades de la escala de Intervalo: 1. Esta escala implica la cuantificación de los datos 2. En estás medidas se utilizan unidades constantes de medición (capacidad, peso, Céntimos, grados Fahrenheit o centígrados) los cuales producen intervalos iguales entre puntos de la escala. 3. Proporcionan números que manifiestan diferencias palpables entre individuos, objetos o cosas. 4. En esta escala de intervalos el punto cero (0) y la unidad de medida es arbitrario. 5. Se pueden aplicar todas las medidas estadísticas más conocidas, con excepción del coeficiente de variación. 6. Son mutuamente exclusivas y exhaustivas. Prof. Simón Cabrera página 5 de 32 ESTADISTICA DESCRIPTIVA Ejemplos: Calificación de una prueba de Estadística realizada en la UCV Puntuación 90-99 80-89 70-79 60-69 Menos de 60 Nº de Estudiantes 2 6 15 30 60 Otro ejemplo de esta escala lo constituyen las escalas utilizadas para medir temperatura, bien sea en grados Centígrados o Fahrenheit. En estas escalas la diferencia entre 80º y 85º es igual a la que existe entre 90º y 95º o entre dos puntos cualesquiera de la escala. Las estadísticas apropiadas para esta escala son: media, desviación estándar, rango, varianza, coeficiente de variación, asimetría y kurtosis. Tipos de gráficos: histograma, polígono de frecuencias y gráfico de tallos y hojas. Escala de Medición de Razón o Proporción: Esta constituye el nivel más alto de medición, posee todas las características de las escalas nominales, ordinales y de intervalos; además tiene un cero absoluto o natural que tiene significado físico. Si en ella la medición es cero, significa ausencia o inexistencia total de la propiedad considerada. Son posibles todas las operaciones aritméticas. Los números indican los valores concretos de la propiedad que sé esta midiendo; peso, estatura, ingresos monetarios y gastos directos, son ejemplos de medidas con una escala de razón. Cuando se emplea este tipo de escala, los números indican razones o cocientes entre ciertas magnitudes de los objetos, y los datos obtenidos con tales escalas pueden ser sometidos a los tratamientos más elaborados. Propiedades de la escala a razón: 1. La distancia entre los números es un tamaño conocido y constante. 2. Los datos tienen un punto cero significativo. 3. Puede utilizarse cualquier prueba de tipo estadístico, incluyendo el coeficiente de variación. 4. Permite hacer comparaciones entre los números verdaderos con un cero aritmético siendo arbitrario únicamente la unidad de medida. Ejemplo de escala a razón: Computadores vendidos en el último trimestres del año 2006 Meses Octubre Noviembre Diciembre Prof. Simón Cabrera Nº de computadores 4.000 6.000 15.000 página 6 de 32 ESTADISTICA DESCRIPTIVA Otros ejemplos de esta escala son: la medición del peso o altura de un grupo de personas, el ingreso familiar, la intensidad de corriente eléctrica de un cable, la edad de un grupo de personas, etc. Generalmente, se supone que los datos que se obtienen para una variable cuantitativa se miden en escalas de intervalo o de razón. Estas escalas constituyen los niveles más elevados de medición. Son formas más fuertes de medición que la escala nominal y ordinal, porque permiten comprender no sólo cuál de los valores de un estudio es mayor o menor, sino por cuántas unidades de medida. Las escalas de razón son medidas de Longitud, peso, capacidad, etc., los números reflejan razones entre particularidades y los datos obtenidos según tales escalas pueden ser sometidas a cualquier tratamiento estadístico Prof. Simón Cabrera página 7 de 32 ESTADISTICA DESCRIPTIVA ORGANIZACIÓN DE LOS DATOS 2. DISTRIBUCIONES DE FRECUENCIAS La distribución de frecuencia es una disposición tabular de datos estadísticos, ordenados ascendente o descendentemente, de acuerdo a la frecuencia de cada dato. Las frecuencias pueden ser: 2.1 FRECUENCIA ABSOLUTA (fi): Es el número de veces que se repite un determinado valor de la variable (xi). Se designa por fi. PROPIEDAD: la suma de todas las frecuencias absolutas es igual al total de observaciones (n). 2.2 FRECUENCIA ACUMULADA (Fi): Las frecuencias acumuladas de una distribución de frecuencias son aquellas que se obtienen de las sumas sucesivas de las fi que integran cada una de las filas de una distribución de frecuencia, esto se logra cuando la acumulación de las frecuencias se realiza tomando en cuenta la primera fila hasta alcanzar la ultima. Las frecuencias acumuladas se designan con las letras Fi. Se calcula: i Fi =∑ f j = Fi −1 + f i j =1 PROPIEDAD: La última frecuencia acumulada absoluta es igual al total de observaciones. 2.3 FRECUENCIA RELATIVA (hi): Es aquella que resulta de dividir cada una de las frecuencias absolutas entre el número total de datos. Las frecuencias relativas se designan con las letras hi. f Se calcula, hi = i n PROPIEDAD: la suma de todas las frecuencias relativas es igual a la unidad. . 2.4 FRECUENCIA RELATIVA ACUMULADA (Hi): Es aquella que resulta de dividir cada una de las frecuencias acumuladas entre F número total de datos. Se designa con las letras Hi . Se calcula; H i = i n PROPIEDAD: La última frecuencia relativa acumulada es la unidad. Prof. Simón Cabrera página 8 de 32 ESTADISTICA DESCRIPTIVA DISTRIBUCION DE FRECUENCIAS ABSOLUTAS Es la representación estructurada en forma de tabla de toda la información que se ha recogido sobre la variable que se estudia, es decir, es una tabla que presenta de manera ordenada los distintos valores de una variable y sus correspondientes frecuencias. Su forma mas común es la siguiente: Variable (xi) x1 x2 ... xn fi f1 f2 ... fn Σfi=n Fi F1 f1+f2 ... f1+f2+ … + fn hi h1= f1/n h2= f2/n ... hn= fn/n Σhi=1 Hi h1 h1+h2 ... h1+h2+ … + hn Ejemplo 1: El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de la década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha obtenido los siguientes datos: 0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 6 Se pide: a. Construir la tabla de frecuencias absolutas b. ¿Cuál es el número de familias que tiene como máximo dos hijos? c. ¿Cuántas familias tienen más de 1 hijo pero como máximo 3? d. ¿Qué porcentaje de familias tiene más de 3 hijos? Solución: a. Para construir la tabla de frecuencias hay que tener en cuenta que la variable en estudio es el número de hijos (discreta), que toma los valores existentes entre 0 y 6 hijos y las frecuencias son el conjunto de familias, de esta forma tenemos: fi Fi hi Hi xi 0 2 2 0.04 0.04 1 4 6 0.08 0.12 2 21 27 0.42 0.54 3 15 42 0.3 0.84 4 6 48 0.12 0.96 5 1 49 0.02 0.98 6 1 50 0.02 1 n=50 b. En la columna de las fi: 2+4+21=27 ó en la columna de las Fi: F2= 27 c. En la columna de las fi: 21+15=36 ó en la columna de las Fi: 42-6=36 d. En la columna de las hj: 0.12+0.02+0.02=0.16, que supone un 16% ó en la columna de las Hi: 1-0.84=0.16, 16% Prof. Simón Cabrera página 9 de 32 ESTADISTICA DESCRIPTIVA DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS Es aquella distribución en la que la disposición tabular de los datos estadísticos se encuentran ordenados en clases y con la frecuencia en cada clase; es decir, los datos originales de varios valores adyacentes del conjunto se combinan para formar un intervalo de clase. No existen normas establecidas para determinar cuándo es apropiado utilizar datos agrupados o datos no agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es igual o superior 50 y además el rango o recorrido de la serie de datos es mayor de 20, entonces, se utilizará la distribución de frecuencia para datos agrupados, también se utilizará este tipo de distribución cuando se requiera elaborar gráficos lineales como el histograma, el polígono de frecuencia o la ojiva. La razón fundamental para utilizar la distribución de frecuencia de clases es proporcionar mejor comunicación acerca del patrón establecido en los datos y facilitar la manipulación de los mismos. Los datos se agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información obtenida de una investigación sea manejable con mayor facilidad. Al agrupar los datos en una distribución de frecuencia de clase se pierde parte de la información. La reducción o agrupamiento a que son sometidos los datos de una serie de valores cuando existen muchos valores diferentes, originan los denominados errores de agrupamiento; sin embargo, estos errores son en general muy pequeños, razón por la cual la distribución de frecuencia de clase tiene una validez estadística práctica. Para agrupar los datos en intervalos de clase se deben seguir las siguientes reglas generales: • El numero de intervalos de clase se toma entre 5 y 15 dependiendo de los datos. • Cada observación debe estar incluida en una y solo una clase o intervalo. • El valor mas pequeño y mas grande deben entrar en la clasificación. • No deben existir brechas o vacíos entre clases sucesivas. • Los intervalos no se deben sobreponer. • En la medida de lo posible, se debe utilizar la misma amplitud para todos los intervalos. COMPONENTES DE UNA DISTRIBUCIÓN DE FRECUENCIAS DE CLASES 1.- Clase o Intervalo de clase.- Son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados con características comunes. Para organizar los valores de la serie de datos hay que determinar un número de clases que sea conveniente. En otras palabras, que ese número de intervalos no origine un número pequeño de clases ni muy grande. Un número de clases pequeño puede ocultar la naturaleza natural de los datos y un número muy alto puede provocar demasiados detalles como para observar alguna información de gran utilidad en la investigación. A las fronteras del intervalo, la llamaremos, límites inferior y superior de la clase y los denotaremos por Li-1, Li. Prof. Simón Cabrera página 10 de 32 ESTADISTICA DESCRIPTIVA 2.- Punto medio o Marca de clase ( X& ).- Es la semisuma del límite inferior y • L +L superior de una clase, tal como lo indica la siguiente formula: X i = i i −1 . 2 3.- Amplitud , Longitud o Tamaño del Intervalo.- Los intervalos de clases pueden ser de tres tipos: Clases de igual tamaño, clases de tamaños desiguales y clases abiertas. En términos generales, las clases de igual tamaño son los mas utilizados y recomendados para los cálculos estadísticos. Se designa por las letras Ic. Nota: Al número de observaciones de una clase se le llama frecuencia de clase, si dividimos esta frecuencia por el número total de observaciones, se llama frecuencia relativa de clase, y del mismo modo que lo hacíamos para datos sin agrupar definiríamos Hi, y Fi. PROCEDIMIENTO PARA CONSTRUIR UNA FRECUENCIAS AGRUPADA EN INTERVALOS DISTRIBUCIÓN DE 1. Determinar el máximo y mínimo entre los valores que tenemos en la muestra y calcular el recorrido de la variable o rango, es decir, R=Xmax-Xmin 2. Calcular el número de clases a utilizar. Existen diversos criterios para determinar el numero de clases, ante tanta diversidad de criterios, se ha considerado que lo mas importante es dar un ancho o longitud de clases a todos los intervalos de tal manera que respondan a la naturaleza de los datos y al objetivo que se persigue y esto se logra con la practica. Existe una forma para determinar el numero de clases y la misma puede ilustrarse en el siguiente cuadro: Numero de Datos 10 - 100 100 - 1.000 1.000 - 10.000 Numero de Intervalos De 4 a 8 De 8 a 11 De 11 a 14 Cuando se tenga dudas en determinar el numero de intervalos de clases, es de gran utilidad utilizar el método sugerido por Hebert A. Sturges, el cual establece que: K= 1+3,322 log(n) = numero de intervalos. En este curso se utilizará este método siempre y cuando el mismo sea aplicable. 3. Determinamos la amplitud o tamaño de los intervalos través de la R siguiente formula: Ic = = ancho o tamaño del intervalo. N º de int ervalos Prof. Simón Cabrera página 11 de 32 ESTADISTICA DESCRIPTIVA Ejemplo 2 Un nuevo hotel va abrir sus puertas en una cierta ciudad. Antes de decidir el precio de sus habitaciones, el gerente investiga los precios por habitación de 40 hoteles de la misma categoría de esta ciudad. Los datos obtenidos (en miles de pesetas) fueron: 3.3 4.2 4.5 5.1 3.3 4.3 4.7 5.3 3.7 4.3 4.7 5.3 3.8 4.3 4.7 5.4 3.9 4.3 4.7 5.6 3.9 4.4 4.8 5.8 3.9 4.4 4.9 5.8 4.0 4.5 5.0 6.0 4.1 4.5 5.0 6.1 4.2 4.5 5.1 6.1 Procedimiento: 1.- El menor valor es 3.3 y el mayor 6.1, la diferencia es 2.8 y por tanto R=2.8. 2.- K= 1+3,322 log(40) = 6.3 ≈ 6 números de intervalos 3.- Ic = 2.8 / 6 = 0.467 ≈ 0.5 tamaño de los intervalos Así pues la tabla sería: CLASES [3.3, 3.8) [3.8, 4.3) [4.3, 4.8) [4.8, 5.3) [5.3, 5.8) [5.8, 6.3) fi 3 8 14 6 4 5 Fi 3 11 25 31 35 40 Ci 3.5 4 4.5 5 5.5 6 hi 0.075 0.2 0.35 0.15 0.1 0.125 ¿Cuantos hoteles tienen un precio entre 3.3 y 3.8? 3 ¿Cuantos hoteles tienen un precio superior a 4.8? 15 ¿Que porcentaje de hoteles cuestan como mucho 4.3? 27.5 % Prof. Simón Cabrera página 12 de 32 Hi 0.075 0.275 0.625 0.775 0.875 1 ESTADISTICA DESCRIPTIVA MÉTODOS GRÁFICOS La forma de la distribución de frecuencias se percibe más rápidamente si la representamos gráficamente. Se resume la información de la muestra de forma grafica con fines clarificadores o para enfatizar y descubrir determinadas características que de otra manera seria muy difícil de apreciar. Un grafico siempre es mas inmediato de comprender que un conjunto de datos estadísticos. Las representaciones graficas varían según el tipo de variable: a. Gráficos para variables Discretas y Categóricas DIAGRAMA DE BARRAS: Es la representación gráfica usual para variables cuantitativas discretas o para variables cualitativas. En el eje de ordenadas representamos los diferentes valores de la variable (xi). Sobre cada valor levantamos una barra de altura igual a la frecuencia (absoluta o relativa). Ejemplo: 180 160 140 120 100 80 60 40 20 0 1er trim. 2do trim. 3er trim. 4to trim. DIAGRAMA DE SECTORES O DE PASTEL: Es el más usual en variables cualitativas. Se representan mediante círculos. A cada valor de la variable se le asocia el sector circular proporcional a su frecuencia. Ejemplo: Los siguientes datos corresponden a una encuesta referente a elecciones locales de un partido político: xi fi 50% 40% 10% a favor en contra abstención Para construir el diagrama de sectores partimos del hecho de que un circulo encierra un total de 360 grados. Luego, mediante una regla de tres simple, repartimos los 360 grados en distintos sectores, de acuerdo con cada porcentaje; tenemos así que para determinar el sector correspondiente al 50%, resolvemos la ecuación: X= Prof. Simón Cabrera 50 * 360 = 180 100 página 13 de 32 ESTADISTICA DESCRIPTIVA Esto es, el 50% corresponde a un sector circular de medida 180 grados. A continuación, con ayuda de un transportador, señalaremos el sector circular de medida 180 grados. Igualmente, para el 40% se tiene 144 grados y para el 10% se tiene 36 grados. La siguiente figura muestra la representación grafica. Elecciones Locales a favor en contra abstencion b. Gráficos para variables continuas HISTOGRAMA: Es la representación gráfica de las frecuencias agrupadas de una variable continua sobre intervalos. A diferencia de los diagramas de barras, los histogramas dibujan rectángulos unidos entre si, lo que significa que existe continuidad en la variable cuyos valores se representan en el eje horizontal que se haya dividido en intervalos de igual amplitud. Las áreas de los rectángulos son proporcionales a las frecuencias que representan. Ejemplo: Histograma correspondiente a las horas extras laboradas por un grupo de obreros petroleros. 25 21 Frecuencias 20 15 16 16 15 11 10 8 6 4 5 3 0 15 20 25 30 35 40 45 50 Clases Prof. Simón Cabrera página 14 de 32 55 60 65 ESTADISTICA DESCRIPTIVA El histograma o diagrama de barras proporcionan mucha información respecto a la estructura de los datos, nos permite evidenciar fundamentalmente tres características: 1. Forma de la distribución. 2. Acumulación o tendencia posicional (valor central de la distribución). 3. Dispersión o variabilidad. Cuando nos encontramos en distribuciones donde los intervalos no tienen la misma amplitud, las barras del histograma tienen que tener un área proporcional a la frecuencia que queramos representar EJERCICIOS 1.- Los siguientes datos representan los ingresos diarios (en miles) de 20 obreros de cierta compañía. 16, 16, 17, 18, 18, 19, 19, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 24. a. Construya una tabla de frecuencias agrupadas utilizando la formula de Sturges. b. Construya un histograma de frecuencias. Comente. c. ¿Cuántos obreros tienen un ingreso diario menor de 22? d. ¿Qué porcentaje de obreros tienen un ingreso diario entre 16 y 19? 2.- Los siguientes datos corresponden al tiempo que han necesitado 30 clientes de un banco para llevar a cabo una transacción bancaria: 0.1 4.1 0.4 4.1 1.1 4.3 1.2 4.6 1.3 5.0 1.4 5.5 1.5 6.4 1.6 6.5 2.0 7.7 2.5 7.3 2.8 7.4 2.8 8.0 3.1 9.5 3.3 9.5 3.6 10.0 a. Construya una tabla de frecuencias agrupadas utilizando la formula de Sturges. b. Construya un histograma de frecuencias. Comente. 3.- Con el fin de asignar viáticos, la compañía “El Refinanciamiento” obtuvo unas estadísticas sobre le numero de kilómetros recorridos por sus vendedores. A continuación se muestran los resultados. Construya una tabla de distribución de frecuencias agrupadas a cinco intervalos. 10 15 11 16 Prof. Simón Cabrera 12 16 12 16 13 16 13 16 página 15 de 32 13 16 14 16 14 17 15 19 ESTADISTICA DESCRIPTIVA MEDIDAS DE POSICIÓN INTRODUCCIÓN Después que los datos han sido reunidos y tabulados, se inicia el análisis con el fin de calcular un número único, que represente o resuma todos los datos. Las medidas de posición forman parte del conjunto de medidas descriptivas numéricas, las cuales se clasifican en parámetros –cuando se calculan a partir de la población total- y los estadígrafos - cuando se calculan a partir de los datos de una muestra. Una medida de posición es un número que se toma como orientación para referirnos a un conjunto de datos. Uno de los problemas fundamentales que presenta un análisis estadístico, es el de buscar el valor más representativo de una serie de valores. El primer paso que hay que realizar para que se entienda una larga serie de valores u observaciones, es el de resumir los datos en una distribución de frecuencia; esto no es suficiente para fines practico, puesto que a menudo es necesario una sola medida descriptiva, y en especial cuando se requiere comparar dos o más serie estadísticas. Es necesario continuar el proceso de reducción hasta sustituir todos los valores observados por uno solo que sea representativo, de tal forma que permita una interpretación global del fenómeno en estudio; para que ese valor sea representativo debe reflejar la tendencia de los datos individuales de la serie de valores. Un valor o dato de la serie con estas características recibe el nombre de promedio, media o medida de posición, esto es debido a su ubicación en la zona central de la distribución. Las medidas de posición son de gran importancia en el resumen estadístico, ya que representan un gran número de valores individuales por uno solo. El valor más representativo de un conjunto de datos por lo general no es el valor más pequeño ni el más grande, es un número cuyo valor se encuentra en un punto intermedio de la serie de datos. Por lo tanto un promedio es con frecuencia un valor referido que representará la medida de posición de la serie de valores. Las medidas de posición se emplean con frecuencia como mecanismo para resumir un gran número de datos o cantidades con la finalidad de obtener un valor que sea representativo de la serie. Las Principales Medidas de Posición son: La Media Aritmética, Mediana, Moda, los cuartiles, Deciles y Percentiles. Todas ellas a su manera tratan de dar una idea del numero alrededor del cual se centra a todo el conjunto de datos. CARACTERÍSTICAS DE LAS MEDIDAS DE POSICIÓN • Deben ser definidas rigurosamente y no ser susceptibles de diversas interpretaciones. • Deben depender de todas las observaciones de la serie, de lo contrario no seria una característica de la distribución. • No deben tener un carácter matemático demasiado abstracto. • Deben ser susceptibles de cálculo algebraico, rápido y fácil. Prof. Simón Cabrera página 16 de 32 ESTADISTICA DESCRIPTIVA MEDIA ARITMÉTICA La media aritmética ( X ) o simplemente la media es la medida de posición de más importancia y utilización en las aplicaciones estadísticas por su fácil calculo e interpretación. Se trata del valor medio de todos los valores que toma la variable estadística de una serie de datos. La media es el valor más representativo de la serie de valores, es el punto de equilibrio, el centro de gravedad de la serie de datos. Por lo general se le designa con X . La media aritmética de una serie de n valores de una variable X1, X2, X3; X4,.........Xn, es el cociente de dividir la sumatoria de todos los valores que toma la variable Xi, entre n el número total de ellos. La formula se puede expresar así: X = ∑X i =1 n i . Desviaciones o desvíos.- Son diferencias algebraicas entre cada valor de la serie o cada punto medio y la media aritmética de dicha serie, o un valor cualquiera tomado arbitrariamente. Los desvíos o desviación se designan con la letra di. Dado una serie de valores X1, X2, X3, .......Xn , se llama desvío a la diferencia entre un valor cualquiera Xi de la serie y un valor indicado k de esa misma serie. Si el valor indicado k de la serie corresponde precisamente a la media aritmética de esos valores dados, se dice entonces que los desvíos son con respecto a la media aritmética. En símbolo: d i = ( X i − X ). PROPIEDADES DE LA MEDIA ARITMÉTICA 1. La suma de las desviaciones con respecto a la media aritmética es igual a cero. ∑d = 0. i 2. La suma de las desviaciones al cuadrado de los diversos valores con respecto a la media aritmética es menor que la suma de las desviaciones al cuadrado de los diversos valores con respecto a cualquier punto K, que no sea la media aritmética. ∑ (X −X) < 2 i ∑ (X − K) . 2 i 3. La media aritmética total o conjunta de dos o más serie de datos, se puede calcular en función de las medias aritméticas parciales y del número de datos de cada una de ellas, mediante la siguiente formula: Xt = n1 X 1 + n 2 X 2 + n3 X 3 + ........ + n k X k = N ∑X n1 1 + ∑X n2 2 + ∑X n3 3 + ....... ∑X nk k , Donde: N = n1 + n2 + n3 + ...... + nk , en esta n1, n2, n3 y nk es el número de datos de cada serie. Además, X 1 ..,. X 2., .,.. X 3 .,., y.. X k .,..son las medias de cada una de las series. Prof. Simón Cabrera página 17 de 32 ESTADISTICA DESCRIPTIVA 4. La media del producto de una constante por una variable, es igual al producto de la constante por la media de la variable. X = ∑ KX n i = K∑ Xi n = KX . 5. La media de la suma de una constante más una variable, es igual a la media de la variable más la constante. X (Xi +K ) = ∑ (X i n + K) = ∑X n i + ∑K n = X + K . ., de la misma forma se cumple esta propiedad para la resta. CARACTERÍSTICAS PRINCIPALES DE LA MEDIA ARITMÉTICA • El valor de la media depende de cada una de las medidas que forman la serie de datos, y se halla afectada excesivamente por los valores extremos de la serie de datos. • La media se calcula con facilidad y es única para cada caso y permite representar mediante un solo valor la posición de la serie de valores. • La media es una medida de posición que se calcula con todos los datos de la serie de valores y es susceptible de operaciones algebraicas. CÁLCULO DE LA MEDIA PARA DATOS NO AGRUPADOS Para calcular la media de datos no agrupados en clases se aplica la siguiente formula: X = ∑X i . En donde n es el número total de datos y X i son los valores de la n variable. Ejemplo: Calcule la media aritmética de los siguientes valores: X i = {5, 7, 8, 9, 11, 14} X = ∑X n i = 5 + 7 + 8 + 9 + 11 + 14 54 = = 9. 6 6 Por lo tanto la media es 9. CÁLCULO DE LA MEDIA PARA DATOS AGRUPADOS Cuando se trabaja con la distribución de frecuencia agrupada, se parte del supuesto de que todos los datos comprendidos en un intervalo de clase se distribuyen uniformemente a lo largo de este, entonces se puede tomar la marca de clase o punto & ) del intervalo como adecuada representación de los valores que conforman medio ( X el mencionado intervalo. Para calcular la media en estas condiciones se pueden utilizar tres métodos: El método directo o largo y dos métodos abreviados. En este curso utilizaremos el primer método. Prof. Simón Cabrera página 18 de 32 ESTADISTICA DESCRIPTIVA MÉTODO DIRECTO Este método se le conoce también como método largo; el mismo resulta demasiado engorroso cuando las magnitudes de los puntos medios o de las frecuencias de clase son muy grandes, debido a que los cálculos son demasiados extensos. Los pasos a seguir para calcular la media con este método son los siguientes: 1. Se agrupan los datos en clases y se llevan a una columna, se calculan los puntos medios de cada clase y se colocan en sus respectivas columnas, se determinan las frecuencias de cada clase y se ubican en sus respectivas columnas. 2. Se multiplican los puntos medios de cada clase por sus respectivas frecuencias, luego se obtiene la sumatoria de las frecuencias (fi) multiplicadas por el punto f i X& i . medio ( X& ) así: ∑ 3. Luego se calcula la media aritmética aplicando la formula: f X& f X& ∑ ∑ X = = n ∑f =n i i i ...Donde..n es igual al número total de datos. i Ejemplo: Calcule la media de la siguiente distribución de frecuencia correspondiente al peso en Kg. de un grupo de obreros. Realice los cálculos respectivos para completar el siguiente cuadro. CLASES 75-------79 80-------84 85-------89 90-------94 95 ------99 fi ∑ 20 40 60 100 140 f i = n =360 Solución: PESOS X& Nº DE OBREROS f i X& 75-------79 80-------84 85-------89 90-------94 95 ------99 77 82 87 92 97 20 40 60 100 140 n =360 1540 3280 5220 9200 13580 ∑ f X& i i Aplicando la formula se tiene: ∑ f i X& i = 32820 = 91.17. X = 360 N Prof. Simón Cabrera = 32820 Interpretación: El peso promedio del grupo de 360 obreros es de 91.17 Kg. página 19 de 32 ESTADISTICA DESCRIPTIVA LA MEDIANA La mediana es el valor que divide en dos partes iguales, al conjunto de observaciones ordenadas respecto de sus magnitudes, de tal manera que el numero de datos por encima de la mediana sea igual al numero de datos por debajo de la misma. Se designa por las letras Me. Tal como sucede con la media, el método de determinación depende de si los datos son agrupados o no. CÁLCULO DE LA MEDIANA PARA DATOS NO AGRUPADOS (Discretos) Para encontrar la mediana en una serie de datos no agrupados, lo primero que se hace es ordenar los datos en una forma creciente o decreciente y luego se ubica la posición que esta ocupa en esa serie de datos; para ello hay que determinar si la serie de datos es par o impar. Si el número n es impar, entonces la posición de la mediana se determina por la formula: Me = X n +1 , luego el número que se obtiene indica el lugar o posición que ( ) 2 ocupa la mediana en la serie de valores, luego la mediana será el número que ocupe el lugar de lo posición encontrada. Si n es par, se aplica la formula Me = X ( n / 2) + X ( n+ 2 / 2) 2 El resultado obtenido, es la posición que ocupara la mediana, pero en este caso se ubica la posición de la mediana por ambos extremos de la serie de valores y los dos valores que se obtengan se le saca la media y esta será la mediana buscada, por lo tanto la mediana, en este caso, es un número que no se encuentra dentro de la serie de datos dados. Ejemplos: Sean los siguientes datos, 5, 12, 7, 8, 10, 6, y 9, los años de servicios de un grupo de trabajadores. Determine la mediana. Lo primero que se hace es ordenar los datos en forma creciente o decreciente; Los datos ordenados quedaran así: 5, 6, 7, 8, 9, 10, 12. Luego, como se trata de un numero impar de datos (n=7), se aplica la formula Me = X n +1 = X 7 +1 = X ( 4 ) , para ubicar la posición de la mediana. Esto indica que la ( 2 ) ( 2 ) mediana ocupa la posición 4, que en la serie de valores esa posición corresponde al número 8, entonces, Me = 8. Tomemos ahora los datos: 5, 5, 7, 9, 11, 12, 15, 18. Como se trata de un numero par de datos (n =8), la mediana esta dada por: Me = X ( n / 2) + X ( n + 2 / 2) Prof. Simón Cabrera 2 = X ( 4 ) + X ( 5) 2 = 9 + 11 20 = = 10 2 2 página 20 de 32 ESTADISTICA DESCRIPTIVA Cuando los valores de un conjunto de datos se agrupan en una distribución de frecuencia de clase, cada valor pierde su identidad, por tal motivo la mediana obtenida de una distribución de frecuencia de datos puede no ser la misma que la mediana obtenida de los datos sin arreglar en clases, pero el resultado será una aproximación. Cuando se trata de datos agrupados, la mediana se obtiene mediante el método de interpolación. La interpolación parte del supuesto de que los datos de cada intervalo de la distribución están igualmente distribuidos. PASOS PARA DETERMINAR LA MEDIANA EN DATOS AGRUPADOS 1. Se elabora la tabla de frecuencia de datos con sus diferentes intervalos de clases, se ubican las frecuencias fi y se calculan las frecuencias acumuladas Fi de esa distribución. 2. Se determina la ubicación o posición de la mediana en el intervalo de la distribución de frecuencia, mediante la formula n . El 2 resultado obtenido determinará la clase donde se encuentra ubicada la mediana, lo cual se conseguirá en la clase donde la frecuencia acumulada Fi sea igual o superior a ⎡n ⎤ ⎢ 2 − F(i −1) ⎥ este resultado. Luego se aplica la formula: Me = Li + ⎢ ⎥ Ic fi ⎢ ⎥ ⎣⎢ ⎦⎥ Donde, n 2 = posición de la mediana Li F(i-1) fi Ic n = es el limite inferior de la clase donde se encuentra ubicada la mediana. = es el valor de la frecuencia acumulada anterior a la clase mediana. = es el valor de la frecuencia de clase donde se encuentra la mediana. = es el tamaño del intervalo de clase. = es el número total de datos de la distribución en estudio. Ejemplo: Dada la siguiente distribución de frecuencia referida a las horas extras laboradas por un grupo de obreros. Calcule la mediana. Realice los cálculos respectivos para completar el siguiente cuadro. N° de horas Extras 55------59 60------64 65------69 70------74 75------79 80------84 85------89 Prof. Simón Cabrera página 21 de 32 Obreros 6 20 18 50 17 16 5 n = 132 ESTADISTICA DESCRIPTIVA Solución: Cuadro con las frecuencias acumuladas: N° de horas Extras 55------59 60------64 65------69 70------74 75------79 80------84 85------89 Obreros 6 20 18 50 17 16 5 N = 132 Fi 6 26 44 94 111 127 132 Clase Mediana n 132 = = 66, luego se busca en la frecuencia acumulada Fi, un valor que sea igual o 2 2 superior a 66, este se encuentra en la clase 70 -74, la cual llamaremos clase mediana. Por lo tanto el limite inferior de esa clase es 70 = Li. La frecuencia absoluta de esa clase es 50 = fi , F(i-1) = 44 y el Ic = 5. Aplicando la formula se tiene: ⎡ 66 − 44 ⎤ ⎛ 22 ⎞ Me = 70 + ⎢ 5 = 70 + ⎜ ⎟.5 = 70 + 2.2 = 72.2. ⎥ ⎣ 50 ⎦ ⎝ 50 ⎠ Luego la mediana de esa distribución es 72.2. Esto quiere decir que un 50 % de los obreros trabajaron horas extras por debajo de 72.2 horas y el otro 50 % trabajaron horas extras por encima de 72.2 horas. CARACTERÍSTICAS DE LA MEDIANA • La mediana no es afectada por los valores extremos de una serie de valores, puesto que la misma no es calculada con todos los valores de la serie. • La mediana no esta definida algebraicamente, ya que para su cálculo intervienen todos los valores de la serie. • La mediana en algunos casos no se puede calcular exactamente y esto ocurre cuando en una serie de valores para datos no agrupados el número de datos es par, en este caso la mediana se calcula aproximadamente. • La mediana se puede calcular en aquellas distribuciones de frecuencia de clases abierta, siempre y cuando los elementos centrales puedan ser determinados. • La suma de los valores absolutos de las desviaciones de los datos individuales con respecto a la mediana siempre es mínima. (propiedad) Prof. Simón Cabrera página 22 de 32 no ESTADISTICA DESCRIPTIVA LA MODA La moda es la medida de posición que indica la magnitud del valor que se presenta con más frecuencia en una serie de datos; es pues, el valor de la variable que más se repite en un conjunto de datos. De las medidas de posición la moda es la que se determina con mayor facilidad, ya que se puede obtener por una simple observación de los datos en estudio, puesto que es el dato que se observa con mayor frecuencia. Se designa con las letras Mo. En las representaciones gráficas la moda es el punto más alto de la gráfica. La obtención de la moda para datos agrupados no es un valor exacto, ya que varía con las diferentes formas de agrupar una distribución de frecuencia. En algunas distribuciones de frecuencias o serie de datos no agrupados o agrupados se pueden presentar dos o más modas, en estos casos se habla de serie de datos bimodales o multimodales respectivamente. Estos tipos de distribuciones o series de valores se deben a la falta de homogeneidad de los datos. Cuando una serie de valores es simétrica, la media, la mediana y el modo coinciden, y si el grado de asimetría de la serie es moderada, la mediana estará situada entre la media y el modo con una separación de un tercio entre ambas. Tomando en cuenta esta relación, cuando se tengan dos de esta medidas se puede determinar la tercera; sin embargo es conveniente utilizar esta relación para calcular solamente la moda ya que para calcular la media y la mediana existen formulas matemáticas que dan resultados más exactos; la formula matemática para calcular la moda por medio de la relación antes mencionada es: Mo = X − 3 X − Me . ( ) Cuando los datos se encuentran no agrupados la determinación de la moda es sencilla y exacta; pero para calcularla en datos agrupados existen varios métodos; cada uno de los cuales puede dar un valor diferente de la moda: En este curso se dará el método de la interpolación por considerarse uno de los más precisos en el cálculo de esta. Este método puede expresarse mediante la siguiente formula: ⎛ Δ1 ⎞ ⎟⎟.Ic Mo = Li + ⎜⎜ Δ + Δ 2 ⎠ ⎝ 1 Donde, Li = es el limite inferior de la clase modal. Δ1 = es la diferencia entre la frecuencia absoluta de la clase modal y la frecuencia de la clase anterior a la modal. Δ 2 = es la diferencia entre la frecuencia absoluta de la clase modal y la frecuencia de la clase siguiente a la modal. Ic = es el tamaño del intervalo de clase. Prof. Simón Cabrera página 23 de 32 ESTADISTICA DESCRIPTIVA Ejemplo: Dada la siguiente distribución de frecuencia correspondiente al peso en Kg. de un grupo de trabajadores de una empresa, calcule la moda. Peso (Kg) 30-----39 40-----49 50-----59 60-----69 70-----79 80-----89 90-----99 TOTAL Trabajadores 2 2 7 11 12 16 2 Clase modal La clase que presenta mayor frecuencia absoluta es 80----89, entonces esta sera la clase modal, donde Li = 80 Δ1 = 16 − 12 = 4; Δ 2 = 16 − 2 = 14; Ic = 10 Aplicando la formula se tiene: ⎛ Δ1 ⎞ 40 ⎛ 4 ⎞ ⎟⎟ → Mo = 80 + ⎜ Mo = Li + ⎜⎜ = 80 + 2.22 = 82.22. ⎟.10 = 80 + 18 ⎝ 4 + 14 ⎠ ⎝ Δ1 + Δ 2 ⎠ Este resultado de la moda se interpreta así: La mayoría de los trabajadores tiene un peso aproximadamente de 82.22 Kg . CARACTERÍSTICAS DE LA MODA • El valor de la moda puede ser afectado grandemente por el método de elaboración de los intervalos de clases. • El valor de la moda no se halla afectado por la magnitud de los valores extremos de una serie de valores, como sucede en la media aritmética. • La moda se puede obtener en una forma aproximada muy fácilmente, puesto que la obtención exacta es algo complicado. • La moda tiene poca utilidad en una distribución de frecuencia que no posea suficientes datos y que no ofrezcan una marcada tendencia central. • No es susceptible de operaciones algebraicas posteriores. • La moda se utiliza cuando se trabaja con escalas nominales aunque se puede utilizar con las otras escalas. • La moda es útil cuando se esta interesado en tener una idea aproximada de la mayor concentración de una serie de datos. Prof. Simón Cabrera página 24 de 32 ESTADISTICA DESCRIPTIVA OTRAS MEDIDAS POSICIÓNALES Cuando se estudio la mediana se pudo detectar que esta divide la serie de valores en dos partes iguales, una generalización de esta medida da origen a unas nuevas medidas de posición denominadas: Cuartiles; Deciles y Percentiles. Estas nuevas medidas de posición surgen por la necesidad de requerir de otras medidas que expresen diferentes situaciones de orden, aparte de las señaladas por la mediana. Por lo tanto es interesante ubicar otras medidas que fraccionen una serie de datos en diferentes partes. Es bueno destacar que los cuartiles, los Deciles y los Percentiles son unas variantes de la mediana: De la misma forma los percentiles abarcan tanto a los cuartiles como a los Deciles. LOS CUARTILES.- Son medidas posiciónales que dividen la distribución de frecuencia en cuatro partes iguales. Se designa por el símbolo Qc en la que c corresponde a los valores 1, 2 y 3. El Q1 es el valor debajo del cual queda el 25 % de los datos; Q3 deja el 75 % de los datos y Q2 divide la distribución de frecuencia en dos partes iguales, un 50 % que esta por debajo de los valores de Q2 y otro 50 % que esta por encima del valor de Q2. El Q2 es igual a la mediana. CÁLCULO DE LOS CUARTILES.- Para datos no agrupados no tiene ninguna utilidad practica calcular los cuartiles. Para el cálculo de los cuartiles en datos agrupados en una distribución de frecuencia existe un método por análisis gráfico y otro por determinación numérica, por fines prácticos en esta cátedra se utilizara él último método. Para calcular los cuartiles por el método numérico se procede de la siguiente manera: 1. Se Qc = localiza la posición del cuartil solicitado aplicando la formula de posición: cn , en donde c viene a ser el número del cuartil solicitado, n corresponde al 4 número total de datos de la distribución y 4 corresponde al número de cuartiles que presenta una distribución de frecuencia. 2. Se determina la posición que ocupa el cuartil mediante la formula: Qc = cn , el 4 resultado obtenido determinara la clase donde se encuentra ubicado el cuartil, lo cual se conseguirá en la clase donde la frecuencia acumulada Fi que sea igual o superior a este resultado. Luego se aplica la formula: ⎡ cn ⎤ ⎢ 4 − F(i −1) ⎥ Qc = Li + ⎢ ⎥ Ic. fi ⎢ ⎥ ⎢⎣ ⎥⎦ Donde, cn 4 = Posición que ocupa el cuartil en la distribución de frecuencia. c Li F( i-1) fi = corresponde al número del cuartil solicitado: 1,2 3. = Limite real inferior de la clase donde se encuentra ubicado el cuartil. = Frecuencia acumulada anterior a la clase donde se encuentra el cuartil. = Frecuencia absoluta de clase donde se encuentra el cuartil. Prof. Simón Cabrera página 25 de 32 ESTADISTICA DESCRIPTIVA LOS PERCENTILES – Son medidas posesiónales que dividen la distribución de frecuencia en 100 partes iguales. Con estos se puede calcular cualquier porcentaje de datos de la distribución de frecuencia. Los percentiles son las medidas más utilizadas para propósitos de ubicación de valor de una serie de datos ubicados en una distribución de frecuencia. El número de percentiles de una distribución de frecuencia es de 99. El percentil 50 es igual a la mediana y al cuartil 2, es decir: Me = Q2 = P50 = 50% por encima y 50 % por debajo de los datos de la distribución. El cálculo de los percentiles es similar al cálculo de los cuartiles con una variante en la posición de ubicación de estos, que viene expresada por la siguiente formula: ⎡ pn ⎤ ⎢ 100 − F( i −1) ⎥ pn . Con esta posición se aplica la formula: Pp = Li + ⎢ PP = ⎥ Ic . fi 100 ⎢ ⎥ ⎣⎢ ⎦⎥ Ejemplo: Dada la siguiente distribución correspondiente al salario semanal en dólares de un grupo de obreros de una empresa petrolera trasnacional. Calcule: a) Q1, b) Q2, c) Compare los resultados con la mediana, d) P25, f) P50, g) P70 SALARIO EN $ 200-----299 300-----399 400-----499 500-----599 600-----699 700-----799 Obreros 85 90 120 70 62 36 463 Fi 85 175 295 365 427 463 Clase cuartil Clase mediana Clase percentil a) Para calcular Q1 se determina primero la posición así: Q1 = 1x 463 463 = = 115.75. 4 4 Q1 = 115.75. Con ese valor de la posición encontrado se busca en las frecuencias acumuladas para ver cual de esas es mayor o igual a ese valor. Observando las frecuencias acumuladas se puede detectar que la posición 115.75 se encuentra en la clase 300------399, por lo tanto el Li = 300, fi = 90, y la F(i-1) = 85 y Ic = 100, aplicando la formula se tiene: 3075 ⎡115.75 − 85 ⎤ Q1 = 300 + ⎢ . 100 = 300 + = 300 + 34.17 = 334.17 ⎥⎦ 90 90 ⎣ Este valor de Q1 indica que el 25 % de los obreros en estudio, devengan un salario semanal por debajo de 334.17 $ y el 75 % restante gana un salario por encima de 334.17 $. Prof. Simón Cabrera página 26 de 32 ESTADISTICA DESCRIPTIVA b) Para calcular Q2=Me se determina primero la posición de este así. Q2 = 2 x 463 = 231.5 , ahora se ubica esta posición en las frecuencias acumuladas 4 para determinar la posición de Q2, se puede observar en la distribución que esta posición esta ubicada en la clase 400----499, entonces, Li = 400, fi = 120, F(i-1) = 175 y Ic = 100, aplicando la formula se tiene: 5650 ⎡ 231.5 − 175 ⎤ Q2 = 400 + ⎢ .100 = 400 + → 400 + 47.08 = 447.08. ⎥ 120 120 ⎣ ⎦ Este resultado de Q2 establece que el 50 % de los obreros de este estudio, devengan un salario semanal por debajo de 447.08 $ y el otro 50 % devenga un sueldo por encima de 447.08 $. Calcule la mediana y compárela con este resultado. c) Calcular, Q2 = P50, además P25 = Q1, la comprobación de estos resultados se le deja como practica al estudiante. g) Para calcular P70 lo primero que se hace es determinar la posición, P70 = 70 x 463 = 324.10 . Ahora se ubica este resultado en la columna de frecuencias 100 acumuladas para encontrar la posición de P70 en la distribución de frecuencia. Como se puede observar en la tabla de distribución de frecuencia, P70 se encuentra ubicado en la clase 500-------599, entonces, Li = 500, fi = 70, F(i-1) = 295 y Ic = 100, aplicando la formula se tiene: 2910 ⎡ 324.10 − 295 ⎤ P70 = 500 + ⎢ .100 = 500 + = 500 + 41.57 = 541.57. ⎥ 70 70 ⎣ ⎦ Esto indica que el 70 % de los obreros devengan un sueldo semanal que esta por debajo de 541.57 $ y que el 30% de los restantes obreros, ganan un salario por encima de 541.57 $. Prof. Simón Cabrera página 27 de 32 ESTADISTICA DESCRIPTIVA MEDIDAS DE DISPERSION INTRODUCCIÓN La utilización de una medida de posición escogida para representar a los datos no indica otras características que el conjunto de observaciones que posee. No todas las observaciones son iguales a la medida de posición tomada o seleccionada; en general los datos difieren unos de otros, por lo tanto se hace necesario encontrar ciertos índices o medidas que indiquen la variabilidad o dispersión del conjunto de observaciones que se estudian. Una medida de variabilidad es un numero que nos indica el grado de dispersión en un conjunto de datos. Si el valor es pequeño (respecto de la unidad de medida) entonces hay una gran uniformidad entre los datos (homogénea). Por el contrario, un gran valor nos indica poca uniformidad (heterogénea). Cuando es cero quiere decir que todos los datos son iguales. Las medidas de dispersión se clasifican en dos grupos: • Medidas de Dispersión Absoluta. Son aquellas que vienen expresadas en las mismas unidades originales que indican la serie de datos. Entre las medidas de dispersión absoluta se encuentran: el rango, el rango intercuartilico, la desviación media, la varianza y la desviación típica. • Medidas de Dispersión Relativas. Estas medidas vienen expresadas en valores abstractos o porcentajes; su principal función es la de determinar entre varias distribuciones la de mayor o menor dispersión. La medida de dispersión relativa de mayor importancia es el coeficiente de variación. RANGO O RECORRIDO. Es la medida de dispersión mas sencilla y se define como la diferencia entre el valor mas alto menos el valor mas pequeño y se designa por R. Es decir, R = Xmax-Xmin para datos no agrupados. Si los datos están agrupados en K clases el rango será la diferencia entre el limite superior de la K-esima clase menos el limite inferior de la primera clase. El rango nos dará una primera idea sobre las dispersión de los datos ya que si su valor es pequeño nos indicará una gran concentración de los datos, y si por el contrario su valor es grande nos puede indicar una gran variabilidad o dispersión de los datos. Prof. Simón Cabrera página 28 de 32 ESTADISTICA DESCRIPTIVA RANGOS ESPECIALES El rango nos da una idea de la dispersión total de las observaciones, por lo tanto puede estar afectada por valores extremos dando en consecuencia una idea de alta dispersión. Por tal motivo, se han definido otros rangos que tratan de subsanar este problema. RANGO ÍNTERCUARTILICO. Se define como la diferencia entre el cuartil tres(Q3) y el cuartil uno(Q1) de una distribución de frecuencia y se expresa así: RI = Q3 − Q1. RANGO SEMI-ÍNTERCUARTILICA. Es la diferencia entre el Q3 y el Q1 dividido entre dos: RSI = Q3 − Q1 . 2 Si los valores de la RI o RSI son pequeños indica una alta concentración de los datos de la distribución en los valores centrales de la serie de datos. Estas medidas se utilizan para comparar los grados de variación de los valores centrales en diferentes distribuciones de frecuencias. Los mismos no son afectados por los valores extremos, no se adaptan a la manipulación algebraica, por tal motivo son de poco utilidad. DESVIACIÓN MEDIA. La desviación media de un conjunto de n observaciones x1, x2, x3,. . .xn, es el promedio de los valores absolutos de las desviaciones (di) con respecto a la media aritmética o la mediana. Si se denomina como DM a la desviación media, entonces su formula matemática será la siguiente: N DM = ∑ i =1 Xi − X N N = ∑ i =1 di N Esta formula es para datos no agrupados. Se toma el valor absoluto en la ecuación, debido a que la primera propiedad de la media aritmética establece que los desvíos (di) de una serie con respecto a la media aritmética siempre son iguales a cero, es decir: di = 0. Cuando los datos están en una distribución siguiente formula: n DM = ∑ i =1 X& i − X n de clases o agrupados se aplica la N fi = ∑ i =1 fi d i n En esta formula X& es el punto medio de cada clase y fi es la frecuencia de cada clase. La Desviación Media a pesar de que para su cálculo se toman todas las observaciones de la serie, por el motivo de no tomar en cuenta los signos de las desviaciones (di), es de difícil manejo algebraico. Su utilización en estadística es muy reducida o casi nula, su importancia es meramente histórica, ya que de esta formula es la que da origen a la desviación típica o estándar. Prof. Simón Cabrera página 29 de 32 ESTADISTICA DESCRIPTIVA VARIANZA Una manera de resolver el problema de los signos de las desviaciones respecto de la media aritmética es elevándolos al cuadrado y luego sumar todos los resultados obtenidos. Esta suma se puede considerar como una medida de la dispersión total de los valores. Aquellos que estén mas alejados de la media aritmética tendrán un aporte mayor a esta suma de cuadrados. Su mayor utilidad se presenta en la estadística inductiva y se puede interpretar como una medida de variación promedio (o el promedio de la suma de los cuadrados). Se obtiene dividiendo la variación total entre el numero de unidades o medidas. Se designa por la letra S2 su formula de calculo es al siguiente: S 2 S 2 ∑ (X = ∑ = − X )2 i n ..,. para datos no agrupados fi (X i − X )2 n ∑ = fi X n 2 i − X 2 para datos agrupados DESVIACIÓN TIPICA Como la varianza es el promedio de los desvíos respecto de la media elevados al cuadrado, viene entonces expresada en unidades cuadradas. Para obtener una medida de dispersión en las unidades originales se le extrae la raíz cuadrada (positiva) a la varianza, obteniendo así otra medida de dispersión denominada desviación típica o estándar, la cual se designara por S y será igual a : S= S= ∑ ( X& i − X )2 Para datos no agrupados n ∑ ( X& i − X )2 fi n = ∑X n 2 i fi −X 2 Para datos agrupados INTERPRETACIÓN DE LA DESVIACIÓN TÍPICA La desviación típica como medida absoluta de dispersión, es la que mejor nos proporciona la variación de los datos con respecto a la media aritmética, su valor se encuentra en relación directa con la dispersión de los datos, a mayor dispersión de ellos, mayor desviación típica, y a menor dispersión, menor desviación típica. Su mayor utilidad se presenta en una distribución normal, ya que en dicha distribución en el intervalo determinado por X ± σ se encuentra el 68. 27% de los datos de la serie; en el intervalo determinado por la X ± 2σ se encuentra el 95,45% de los datos y entre la X ± 3σ se encuentra la casi totalidad de los datos, es decir, el 99,73% de los datos; además, existe una regla general de gran utilidad para la comprobación de los cálculos que dice: “una oscilación igual a seis veces la σ , centrada en la media comprende aproximadamente el 99% de los datos”. Prof. Simón Cabrera página 30 de 32 ESTADISTICA DESCRIPTIVA Ejemplo: Los siguientes datos corresponden al número de panes consumidos por un grupo de familias de una urbanización de la ciudad, durante una semana determinada. Clases 30—32 33—35 36—38 39—41 42—44 45—47 48—50 ∑ fi 10 18 60 100 80 14 6 288 Solución: Clases fi 30—32 33—35 36—38 39—41 42—44 45—47 48—50 ∑ 10 18 60 100 80 14 6 288 X = S 2 S= ∑ f X& i n = ∑ i = i f i X i2 X& 12 n f i X& i 310 612 2220 4000 3440 644 294 11520 f i X& i2 9610 20808 82140 160000 147920 29624 14404 464508 11520 = 40.0. 288 n ∑f X& i 31 34 37 40 43 46 49 ⎛ −⎜ ⎜ ⎝ 2 − X ∑f 2 464508 ⎛ 11520 ⎞ = −⎜ ⎟ = 12 . 88 288 ⎝ 288 ⎠ 2 X& i ⎞ ⎟ = ⎟ n ⎠ i 2 464508 ⎛ 11520 ⎞ −⎜ ⎟ = 288 ⎝ 288 ⎠ = 1612 .88 − 1600 = 12 .88 = 3.59 . Interpretación.- El resultado obtenido indica que en promedio, el consumo de pan de trigo del grupo de familias de esa urbanización se dispersa con respecto a su media aritmética en una cantidad igual a 3.59. Prof. Simón Cabrera página 31 de 32 ESTADISTICA DESCRIPTIVA DISPERSIÓN RELATIVA Las medidas de variabilidad, estudiadas hasta ahora, solo permitían medir las dispersiones absolutas de los términos de la muestra. Las medidas, tomadas en esas condiciones, serán de utilidad, solo cuando se trata de analizar una sola muestra; pero, cuando hay que establecer comparaciones entre distintas muestras, será necesario expresar tales medidas en valores relativos, que pueden ser proporciones o porcentajes. Las medidas de dispersión relativas permiten comparar grupos de series distintas en cuanto a su variación, independientemente de las unidades en que se midan las diferentes características en consideración. Generalmente las medidas de dispersión relativas se expresan en porcentajes, facilitando así el estudio con medidas procedentes de otras series de valores La dispersión relativa viene a ser igual a la dispersión absoluta dividida entre el promedio. Existen varias medidas de dispersión relativa, pero, la más usada es el coeficiente de variación de Pearson, este es un índice de variabilidad sin dimensiones, lo que permite la comparación entre diferentes distribuciones de frecuencias, medidas en diferentes unidades. El coeficiente de variación de Pearson se designa con las letras CV. La formula matemática es: CV = S x100 X Una serie de valores será más dispersa que otra mientras su CV sea mayor. Ejemplo: La venta en el mercado de tres productos, varia de acuerdo al siguiente cuadro. Determine el CV de cada uno y diga cuál de ellos presenta mayor variación y cuál la menor. Producto 1 2 3 X 45 450 4500 S 5 40 350 Unidades Bs. Bs. Bs. CV 11.11 % 8.87 % 7.78 % Para resolver el problema se calcula el CV de cada producto y luego sé determina cuál presenta mayor o menor variación CV = Sx100/ X CV(1) = 5x100/45 = 11.11 %. CV(2) = 40x100/450 = 8.87 %. CV(3) = 350x100/4500 = 7.78 %. Se puede observar que la menor dispersión la presenta el producto 3, por lo tanto, de los tres productos el que menos varia es ese; por otro lado el de mayor dispersión o variabilidad es el producto 1. Prof. Simón Cabrera página 32 de 32