ESTADISTICA DESCRIPTIVA 1. DEFINICION La estadística es una ciencia que facilita la toma de decisiones: Mediante la presentación ordenada de los datos observados en tablas y gráficos estadísticos. Reduciendo los datos observados a un pequeño numero de medidas estadísticas que permitirán la comparación entre diferentes series de datos. Y estimando la probabilidad de éxito que tiene cada una de las decisiones posibles. 2. RAMAS DE LA ESTADISTICA ESTADISTICA DESCRIPTIVA: la cual se encarga de la recolección, clasificación y descripción de datos muéstrales o poblacionales, para su interpretación y análisis. ESTADISTICA MATEMATICA O INFERENCIAL: que desarrolla modelos teóricos que se ajusten a una determinada realidad con cierto grado de confianza. Basada en la Teoría de Probabilidades, también conocida como Estadística Deductiva o Inferencia Estadística. 3. CONCEPTOS BASICOS 3.1 POBLACION, COLECTIVO O UNIVERSO “cualquier conjunto de personas, objetos, ideas o acontecimientos que se someten a la observación estadística de una o varias características que comparten sus elementos y que permiten diferenciarlos”. Son poblaciones por ejemplo, los diferentes automóviles que se encuentran en un concesionario o las diferentes religiones de un país. 3.2 VARIABLE Las variables se clasifican en continuas o discretas, según admitan o no infinitos valores intermedios entre dos valores próximos respectivamente. En la practica, la distinción entre variable discreta y continua no es fácil, ya que todas las variables pueden ser consideradas discretas, porque los instrumentos de medida no permiten pasar de un cierto limite de precisión. 4. DISTRIBUCIÓN DE FRECUENCIAS 4.1 DISTRIBUCIÓN DE FRECUENCIAS SIMPLE 4.1.1 Frecuencia absoluta simple Es el número de veces que se presenta un determinado dato de un carácter en los diferentes elementos de una población. Se presenta por na . La frecuencia absoluta es, por tanto, el número de repeticiones de un determinado valor de la variable o una determinada modalidad del atributo. La frecuencia absoluta también representa el número de elementos de la población que tienen el mismo valor o modalidad. La suma total de todas las frecuencias absolutas es el tamaño de la población de elementos observados. Se representa por N. 4.1.2 Frecuencia relativa simple Se obtiene dividiendo la frecuencia absoluta de un determinado dato entre la suma de las frecuencias absolutas de todos los datos observados, es decir, entre el tamaño de la población. Se representa por fr = na / N La frecuencia relativa es, una proporción entre el número de veces que se repite un dato y el tamaño de la población. Las frecuencias relativas se suelen presentar en porcentaje (%fr) que se obtiene al multiplicar por 100 el valor correspondiente de la frecuencia relativa. En este caso, la suma total de todas las frecuencias relativas porcentuales será 100. 4.1.3 Frecuencia absoluta acumulada La frecuencia absoluta acumulada de un dato es igual a la frecuencia absoluta de este dato más la suma de las frecuencias absolutas de los datos anteriores. Se representa por Na. Esta frecuencia representa, cuando existe una relación de orden, el número de elementos de la población que quedan por encima o por debajo del elemento cuyo valor o modalidad se observa. 4.1.4 Frecuencia relativa acumulada La frecuencia relativa acumulada de un dato es igual a la suma de las frecuencias relativas de todos los datos menores o iguales de dicho valor. Se representa por Fa. Al igual que las frecuencias relativas simples, se suelen presentar en porcentajes (%Fa). EJEMPLO: Se ha realizado un estudio del numero de empleados de 15 ferreterías de una zona de Madrid con los siguientes resultados: 4; 5; 4; 3; 3; 6; 4; 5; 3; 3; 4; 5; 3; 6. Construir la tabla estadística empleando frecuencias absolutas simples y acumuladas y, también, frecuencias relativas en porcentaje, simples y acumuladas. Solución: Nº empleados por tienda Frecuencia absoluta simple (n ) a Frecuencia absoluta acumulada (N ) Frecuencia relativa simple en % (%f ) r a Frecuencia relativa acumulada en % (%F ) a 3 5 5 5/ 15 = 0.33(x 100) = 33.3% 33,3 4 4 9 4/15 = 0.26 (x 100) = 26.6% 60 5 3 12 3/15 = 0.2 (x 100) = 20% 80 6 3 15 3/15 = 0.2 (x 100) = 20% 100 En primer lugar, se ordenan las tiendas de menor a mayor número de empleados, segunde detalla en la primera columna de la tabla inferior. En la segunda columna figuran las veces que se repite un mismo valor (la frecuencia absoluta). La suma de las frecuencias absolutas (15) es el número de elementos de la población. En la tercera columna aparecen las frecuencias absolutas acumuladas, cuyos valores se obtienen sumando al valor de la frecuencia absoluta correspondiente, la suma de todas las frecuencias absolutas anteriores. En la cuarta columna están las frecuencias relativas simples en porcentaje, obtenidas al dividir el valor de la frecuencia absoluta correspondiente entre el numero de elementos de la población, y multiplicadas por 100. En la quinta columna están las frecuencias relativas acumuladas en porcentaje, resultado de la suma del valor de la frecuencia relativa en porcentaje correspondiente mas, la suma de todas las frecuencias relativas en porcentaje anteriores. 4.2 DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS O DATOS CONTINUOS Usualmente los valores de los datos no permiten un agrupamiento de ellos en una tabla de frecuencias simple, debido a que se encuentran distribuidos a través de todo el recorrido y el número de veces que se repite cada observación no es significativo en todos los casos, y en la mayoría de ellos su frecuencia es baja. 5. MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la información, son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación no debe hacerse aisladamente de las medidas de dispersión, ya que la representatividad de ellas está asociada con el grado de concentración de la información. Las principales medidas de tendencia central son: 5.1 MEDIA ARITMÉTICA Cotidiana e inconscientemente estamos utilizando la media aritmética. Cuando por ejemplo, decimos que un determinado fumador consume una cajetilla de cigarrillos diaria, no aseguramos que diariamente deba consumir exactamente los 20 cigarrillos que contiene un paquete sino que es el resultado de la observación, es decir, dicho sujeto puede consumir 18, un día; 19 otro; 20, 21, 22; pero según nuestro criterio, el número de unidades estará alrededor de 20. Matemáticamente, la media aritmética se define como la suma de los valores observados dividida entre el número de observaciones. Donde: ∑ : é : : ! " , $ % EJEMPLO Cantidad de cigarrillos consumidos por un fumador en una semana. Lunes: 18 Viernes: 20 Martes: 21 Sábado: 19 Miércoles: 22 Domingo: 19 Jueves: 21 Solución: Entonces la media aritmética es ∑ ∑& & ' ( ) ) ( & El fumador consume en promedio 20 cigarrillos diarios. Cuando la variable está agrupada en una distribución de frecuencias, la media aritmética se calcula por la fórmula: ∑+ * * * + *+ * Ejemplo: 1. Cantidad de cigarrillos consumidos por un fumador en una semana dada Cantidad 18 19 20 21 22 Frecuencia * 1 2 1 2 1 7 ∑+ ',- ),- (,- ,- , * ( & ( ./0112234 50 2. Calculo de La Media Aritmética. El Salario/día de 50 Operarias. MILES $/DIA Xi fi Xi fi 50 1 50 51 3 153 52 5 260 53 9 477 54 12 648 55 10 550 56 5 280 57 3 171 58 2 116 SUMAS O TOTAL 50 2705 ∑) * &(6 67. 6( 67. (( 9:434/50 3. Si la información está relacionada en una distribución de frecuencias por intervalos, se toman como valores de la variable las marcas de clase de los intervalos, entiéndase por marca de clase el punto medio entre los límites de cada clase o intervalo. Cálculo de La Media Aritmética de la Resistencia de 100 Baldosas ∑& * 77'(( 77' (( La resistencia promedio de las 100 baldosas es de 448 Kg/Cm². 5.2 LA MEDIANA No se basa en la magnitud de los datos, como la media aritmética, sino en la posición central que ocupa en el orden de su magnitud, dividiendo la información en dos partes iguales, dejando igual número de datos por encima y por debajo de ella. 5.2.1 La Mediana Cuando los datos no están Agrupados en Intervalos. Partiendo de la información bruta, ordenamos los datos ascendente o descendentemente: <= , <> , <? … … … . . <A … … … <B D:50 0 D: E F G, 4 :4 +901 ò E G , F- D:50 0 D: Ejemplo: C 4 :4 901 1. En el ejercicio de los cigarrillos, consumidos por un fumador tenemos lunes 18, martes 21, miércoles 22, jueves 21, viernes 20, sábado 19, y domingo 19. Ordenando ascendentemente: <= 18, <> 19, <? 19, <L 20, <O 21, <P 21, <Q 22 n, es impar, entonces D:50 0 D: E F G , &F 7 ( 2. Consumo mensual de agua, en m3, por la fábrica de confecciones “la hilacha” Enero= 10 Mayo= 14 Septiembre = 18 Febrero = 12 Junio= 19 Octubre = 22 Marzo= 15 Julio= 17 Noviembre = 15 Abril = 18 Agosto= 18 Diciembre = 13 <= 10, <> 12, <? 13, <L 14, <O 15, <P 15, <Q 17, <V 18, <W 18, <=X 18, <== 19, <=> 22 D:50 0 D: D: E G , F E G ,Y- & 6 & Y , F Como se puede observar, en este caso la mediana no es un dato perteneciente a la información, es un parámetro que divide la información dejando el 50% por encima y el 50% por debajo de ella. 5.2.2 La Mediana Cuando la Información se Encuentra Agrupada en Intervalos Si la información esta agrupada en intervalos iguales, entonces la mediana se calcula según la siguiente expresión: Z[ 2 \ C,A]=CA ^ Me: Mediana LI: Limite inferior del intervalo donde se encuentra la mediana (intervalo mediano), el cual se determina observando en que clase se encuentra la posición n/2. n: Numero de observaciones C,A]=- : _ CA : _ A: Amplitud del intervalo. EJEMPLO En la columna de frecuencia acumulada advertimos que la observación número 50 se halla en el cuarto intervalo 4. (( \ *0,]\ d6 b c D: (( 776. 76 e//f+ D: `a * d6 Se concluye que el 50% de las baldosas resiste menos de 445.45 Kg/Cm2 y el 50% resiste mas de 445.45 Kg/Cm2. 5.3 LA MODA La moda, como su nombre lo indica, es el valor más común (de mayor frecuencia dentro de una distribución. Una información puede tener una moda y se llama unimodal, dos modas y se llama bimodal, o varias modas y llamarse multimodal. Sin embargo puede ocurrir que la información no posea moda. 5.3.1 La Moda Cuando los datos no están Agrupados en Intervalos El valor que más veces se repite es 54 con una frecuencia de 12, entonces decimos que la moda es Mo = 54.000.00 pesos diarios. Los valores de mayor frecuencia corresponden a 19 y 21, por lo tanto se trata de una distribución bimodal con Mo1=19 y Mo2=21. 5.3.2 Cálculo de la Moda Cuando la Información está Agrupada en Intervalos Cuando la información se encuentra agrupada en intervalos de igual tamaño la moda se calcula con la siguiente expresión. D3 `a *+ \ *,+]b *+ \ *,+]- \ *,+F- Donde: Mo: Moda LI: Limite inferior del intervalo modal *+ : Frecuencia de la clase modal *,+]-: Frecuencia de la clase premodal. *,+F-: Frecuencia de la clase posmodal. A: Amplitud de los intervalos. EJEMPLO D3 `a c D3 7(( *+ \ *,+]b *+ \ *,+]- \ *,+F- dd \ (( 777. 77 e//f+ ,dd- \ \ ' A pesar que el valor 444.44 no es un dato real de la información asumimos ese parámetro como el de mayor ocurrencia. 6. MEDIDAS DE DISPERSIÓN Para medir el grado de dispersión de una variable, se utilizan principalmente los siguientes indicadores: 6.1 RANGO O RECORRIDO Es la medida de dispersión mas sencilla ya que solo considera los dos valores extremos de una colección de datos, sin embargo, su mayor utilización está en el campo de la estadística no paramétrica. R = Xmax – Xmin Xmax, Xmin son el máximo y el mínimo valor de la variable X, respectivamente. En el ejemplo introductorio, vemos que el rango para la primera información es R1=95-5=90, mientras que R2=51-49=2, se hace pues manifiesta la gran dispersión de la primera información contra la homogeneidad de la segunda. 6.2 DESVIACIÓN MEDIA La desviación media, mide la distancia absoluta promedio entre cada uno de los datos, y el parámetro que caracteriza la información. Usualmente se considera la desviación media con respecto a la media aritmética: gD Donde, ∑+ | \ |* DM: Desviación media : Diferentes valores de la variable X * : Numero de veces que se repite la observación : Media aritmética de la información n: tamaño de la muestra m: Numero de agrupamientos o intervalos. EJEMPLO: gD ∑+ &( | \ |* . 7 6( 1.400.00 es el error promedio que se comete al remplazar los ingresos diarios de cada una de las 50 obreras por 54.100 pesos. 6.3 VARIANZA La varianza obvia los signos presentes en la desviación estándar elevando las diferencias al cuadrado, lo cual resulta ser más elegante, aparte de que es supremamente útil en el ajuste de modelos estadísticos que generalmente conllevan formas cuadráticas. Numéricamente definimos la varianza, como desviación cuadrática media de los datos con respecto a la media aritmética: i Donde, ∑+ - * ,j \ j i> : Varianza <A : valor de la variable x <k : Media aritmética de la información CA : Frecuencia absoluta de la observación <A n: Tamaño de la muestra m: Numero de agrupamiento o intervalos. EJEMPLO: 1) i ∑+ - * Y(. 6( ,j \ j d. 6( Como los datos están expresados en miles de pesos y la varianza se encuentra en forma cuadrática obtenemos una varianza de 3’210.000 pesos. Sin embargo para una mejor comprensión debemos recurrir a la desviación típica o estándar definida como la raíz cuadrada de la varianza: i li m ∑+ - * ,j \ j c i √d. . &) El error estándar es de 1.791 pesos/diarios. 2) En el ejemplo de las baldosas: ∑+,j \ j - * i li m c i √)6)Y 7( e//f+ 6.4 COEFICIENTE DE VARIABILIDAD El coeficiente de variabilidad tiene en cuenta el valor de la media aritmética, para establecer un número relativo, que hace comparable el grado de dispersión entre dos o mas variables, y se define como: fo i (( Comparemos la homogeneidad de las dos informaciones anteriores, las cuales tienen diferente unidad de medida. Ejemplo: 9:434 . &) 50 fo 9:434 (. (dd c fo d. d% 67. 50 1) para el salario: 2) para la resistencia 7( e//.+ fo (. d6 c fo d. 6% 77' e//.+ Concluimos que es mucho más dispersa la información correspondiente a la resistencia de las baldosas.