Estadística. Clases de datos estadísticos. Definición de estadística. El término estadística tiene su raíz en la palabra Estado. Surge cuando se hace necesario para sus intereses cuantificar conceptos. En la mayoría de los casos esta cuantificación se hará en función de unos fines económicos o militares. El estado quiere conocer censo de personas, de infraestructura, de recursos en general, para poder obtener conclusiones de esta información. Actualmente la estadística es una ciencia. No es ya una cuestión reservada al estado. Podríamos decir que se encuentra en la totalidad del resto de ciencias. La razón es clara: por una parte la estadística proporciona técnicas precisas para obtener información, (recogida y descripción de datos) y por otra parte proporciona métodos para el análisis de esta información. De ahí el nombre de ESTADÍSTICA DESCRIPTIVA, ya que el objetivo será, a partir de una muestra de datos (recogida según una técnica concreta), la descripción de las características más importantes, entendiendo como características, aquellas cantidades que nos proporcionen información sobre el tema de interés del cual hacemos el estudio. Definiciones de términos estadísticos: POBLACIÓN: Es el conjunto de elementos, individuos o entes sujetos a estudio y de los cuales queremos obtener un resultado. VARIABLE: Es la característica que estamos midiendo. Existen dos categorías o tipo de variables: Variable cualitativa: Es aquella que expresa un atributo o característica, ejemplo: Rubio, moreno, etc. Variable cuantitativa: Es aquella que podemos expresar numéricamente: edad, peso, nº. de hijos, etc. Esta a su vez la podemos subdividir en: Variable discreta, aquella que entre dos valores próximos puede tomar a lo sumo un número finito de valores. Ejemplos: el número de hijos de una familia, el de obreros de una fábrica, el de alumnos de la universidad, etc. Variable continua la que puede tomar los infinitos valores de un intervalo. En muchas ocasiones la diferencia es más teórica que práctica, ya que los aparatos de medida dificultan que puedan existir todos los valores del intervalo. Ejemplos, peso, estatura, distancias, etc. La variable se denota por las mayúsculas de letras finales del alfabeto castellano. A su vez cada una de estas variables puede tomar distintos valores , colocando un subíndice, que indica orden: X = (X1, X2 , X3 , ...... , XK-2 , XK-1, XK ) Muestra: Conjunto de elementos que forman parte de población . La muestra representa a esta población. Tamaño muestral: Es le número de elementos u observaciones que tomamos. Se denota por n ó N. Dato: Cada uno de los individuos, cosas, entes abstractos que integran una población o universo determinado. Dicho de otra forma, cada valor observado de la variable. Frecuencias absolutas y relativas. Frecuencias acumuladas. Frecuencia absoluta: Llamaremos así al número de repeticiones que presenta una observación. Se representa por ni. Frecuencia relativa: Es la frecuencia absoluta dividida por el número total de datos, se suele expresar en tanto por uno, siendo su valor -iésimo fi ni n La suma de todas las frecuencias relativas, siempre debe ser igual a la unidad. Frecuencia absoluta acumulada: es la suma de los distintos valores de la frecuencia absoluta tomando como referencia un individuo dado. La última frecuencia absoluta acumulada es igual al nº de casos: N1 = n1 N2 = n1+ n2 Nn = n1 + n2 + . . . . . . + nn-1 + nn=n Frecuencia relativa acumulada, es el resultado de dividir cada frecuencia absoluta acumulada por el número total de datos, se la suele representar con la notación: Fi De igual forma, también se puede definir a partir de la frecuencia relativa, como suma de los distintos valores de la frecuencia relativa, tomando como referencia un individuo dado. La última frecuencia relativa acumulada es igual a la unidad. Tabla de frecuencias para una variable discreta. La ordenación en la tabla, será: xi x1 x2 x3 ni n1 n2 n3 ni=N Ni N1 N2 N fi f1 f2 f3 1 Fi F1 F2 1 Tabla de frecuencias para variable continua: recorrido, intervalo, amplitud, marca de clase, densidad de frecuencia. Cuando nos encontramos con una distribución con un gran número de variables, se suelen agrupar en intervalos para facilitar la comprensión de los datos. Esta práctica tiene en cambio un inconveniente: se pierde información sobre la propia distribución. [Li-1 , Li) Se indica por Li-1 al extremo inferior del intervalo y por Li al extremo superior. Cerramos el intervalo por la izquierda y abrimos por la derecha. Es una manera de organizarse, pudiendo ser al contrario. Para operar utilizaremos la marca de clase, el punto medio de un intervalo. Para calcularla podemos definirla como la semisuma de los valores extremos del intervalo, esto es sumar los extremos, y dividir entre 2. La amplitud del intervalo, sería la longitud del intervalo, se representa por: a = Li - Li-1 NOTA: ¿Cómo obtener, a partir de los datos, una tabla de frecuencias agrupada? Nº de intervalos: A partir de la raíz cuadrada del número de datos, decidimos, redondeando el número de intervalos. Recorrido: Valor mayor, menos valor menor de los datos. Re= xn-x1 Amplitud: División entre el Recorrido y el número de intervalos que hayamos decidido. Se Re puede redondear también. a i N º de int ervalos NOTA: Si los intervalos no son de la misma amplitud hay que calcular la densidad de frecuencia del intervalo iésimo, como el cociente entre el número total de observaciones de un intervalo y la amplitud del mismo n di i ai Ejemplo 1 El gobierno desea averiguar si el número medio de hijos por familia ha descendido respecto de la década anterior. Para ello ha encuestado a 50 familias respecto al número de hijos, y ha obtenido los siguientes datos: 2 4 2 3 3 4 Se pide: 3 5 1 2 2 0 4 3 2 2 3 1 0 2 2 3 2 2 2 2 3 3 2 1 6 4 2 2 3 3 2 2 2 4 3 3 2 3 3 2 3 2 4 1 a) ¿Cuál es la población objeto de estudio? b) ¿Qué variable estamos estudiando? c) ¿Qué tipo de variable es? d) Construir la tabla de frecuencias? e) ¿Cuál es el número de familias que tiene como máximo 2 hijos? f) ¿Cuántas familias tienen más de 1 hijo, pero como máximo 3? g)¿Qué porcentaje de familias tiene más de 3 hijos? Solución: a) La población objeto de estudio es el conjunto de familias de un determinado país. b) La variable que estamos estudiando es el número de hijos por familia c) El tipo de variable es discreta ya que el número de hijos solo puede tomar determinados valores enteros (es imposible tener medio o un cuarto de hijo). d) Para construir la tabla de frecuencias tenemos que ver cuantas familias tienen un determinado número de hijos. Podemos ver que el número de hijos, toma los valores existentes entre 0 hijos, los que menos y 6 hijos, los que más y tendremos: xi ni Ni Fi Fi 0 2 2 0.04 0.04 1 4 6 0.08 0.12 2 21 27 0.42 0.54 3 15 42 0.30 0.84 4 6 48 0.12 0.96 5 1 49 0.02 0.98 6 1 50 0.024 1 N = 50 1 Medidas de tendencia central La Media Aritmética (X barra): La medida de tendencia central más ampliamente usada es la media aritmética, usualmente abreviada como la media y denotada por, léase como "X barra". Propiedades de la media aritmética - Puede ser calculada en distribuciones con escala relativa y de intervalos - Todos los valores son incluidos en el cómputo de la media. - Una serie de datos solo tiene una media. - Es una medida muy útil para comparar dos o más poblaciones - Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media es igual a cero. - Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos. Desventajas de la media aritmética - Si alguno de los valores es extremadamente grande o extremadamente pequeño, la media no es el promedio apropiado para representar la serie de datos. - No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos. Media aritmética ponderada Por otro lado, si al promediar los datos estos tienen diferentes pesos, entonces estamos ante un caso de media aritmética ponderada, que puede definirse de la siguiente manera Definición: Sea dado un conjunto de observaciones, tales como X1, X2; X3; … ; Xn; y un conjunto de valores p1, p2; p3; … ; pn; asociado con cada observación Xi respectivamente, que reciben el nombre de factores de ponderación, entonces la media ponderada se calcula como: Ejemplo: En el curso de estadística del Prof. Cabrera la nota semestral se calcula como una media ponderada. Por cuanto que el promedio de laboratorios representa el 30% de la nota semestral. El promedio de ejercicios parciales representa el 30% y el examen semestral el restante 40%. Si obtiene en este curso los siguientes promedios al final del semestre: laboratorios 90 pts. Parciales 75% pts. Y en el examen semestral 70 pts.; el promedio semestral se calcula de la siguiente forma.: La nota semestral de 77.5 corresponde a "C". Mediana: Es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos. Propiedades de la mediana - Hay solo una mediana en una serie de datos. - No es afectada por los valores extremos ( altos o bajos ) - Puede ser calculada en distribuciones de frecuencia con intervalos abiertos, si no se encuentra en el intervalo abierto. - Puede ser calculada en distribuciones con escala relativa, de intervalos, y ordinal. La Moda: La moda es el valor que aparece con mayor frecuencia en la serie de datos. La Moda para datos agrupados (Mo.): La Moda puede deducirse de una distribución de frecuencia o de un histograma a partir de la fórmula. Mo. = Li + [ ( ∆1 / ∆1+∆2 ) ] C Donde; Li = límite inferior de la clase modal (clase de mayor frecuencia absoluta (fa) ∆1 = diferencia de las frecuencias absolutas de la clase modal y premodal. ∆2 = diferencia de las frecuencias absolutas de la clase modal y postmodal C = amplitud de la clase modal. Propiedades de la moda - La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de intervalos, y relativa). - La moda tiene la ventaja de no ser afectada por valores extremos. - Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos. Desventajas de la moda - En muchas series de datos no hay moda porque ningún valor aparece más de una vez. - En algunas series de datos hay más de una moda. Relación empírica entre la media, la mediana y la moda En distribuciones totalmente simétricas, la media, la mediana y la moda coinciden, localizándose en un mismo valor. En cambio, en distribuciones moderadamente asimétricas, la siguiente relación se mantiene aproximadamente: Media – Moda = 3(Media – Mediana Posiciones relativas de la media, la mediana y la moda para curvas de frecuencias asimétricas a derecha e izquierda respectivamente, para curvas simétricas los tres valores coinciden La Media Armónica (H): La media armónica se define como el recíproco de la media aritmética de los recíprocos de los valores. y reacomodando la fórmula se tiene: Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores pequeños). Su problema: cuando algún valor de la variable es ó próximo a cero no se puede calcular Ejemplo: Un automóvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viaje entre A y B a razón de 80 Km por hora y el viaje entre B y A a 120 Km por hora, La velocidad promedio del viaje de ida y vuelta será de H = (1/80 + 1/120)/2 = [(120+80)9600]/2 = 19200/200 = 96 km/h Propiedades de la media armónica - La media armónica se basa en todas las observaciones por lo que está afectada por todos los valores de la variable. Da a los valores extremadamente grandes un peso menor que el que les da la media geométrica, mientras que a los valores pequeños les da un peso mayor que el que les da tanto la media aritmética como la media geométrica. - La media armónica esta indeterminada si alguno de los valores es cero, pues hallar el recíproco de cero implica dividir entre cero, lo cual no es válido. La media armónica está rígidamente definida y siempre es definitiva, excepto cuando uno de los valores es cero. - La media armónica es el promedio que se ha de usar, cuando lo que se va a promediar son proporciones donde los numeradores de las razones son los mismos para todas las proporciones. La media armónica se presta a manipulaciones algebraicas posteriores La Media Geométrica (G): La media geométrica es la raíz enésima del producto de todos los valores de la serie. Así por ejemplo la media geométrica de 3,4,9 y 12 seria: Como este sistema de cálculo resulta muy difícil de emplear, máxime cuando son números grandes o largas series de datos, en la práctica se recurre a los logaritmos. G = antilog (∑ log xi)/n así la G del ejemplo se calcularía así : G = antilog (log 3+log4+log 9 +log12)/4 G = antilog (0.477 + 0.602 + 0.954 + 1.079)/4 G = antilog (3.11)/4; G = antilog 0.78 ; G = 6 Propiedades de la media geométrica (G) - La media geométrica esta basada en todas las observaciones, por lo que está afectada por todos los valores de la variable. Sin embargo, da menos pesos a los valores extremadamente grandes que el que les da la media aritmética. - La media geométrica es igual a cero si algunos de los valores es cero, y se puede volver imaginaria si ocurren valores negativos. Con la excepción de estos dos casos, su valor siempre es definitivo y está rígidamente definido. - La media geométrica es la que se debe utilizar cuando lo que se va a promediar son tasas de cambios o proporciones, y se intenta dar igual peso a tasas de cambios iguales.