ELEMENTOS DE ESTADISTICA ELEMENTOS DE ESTADISTICA CONCEPTOS GENERALES La palabra estadística procede del vocablo "estado" pues era función principal de los gobiernos de los estados establecer registros de población , nacimientos , defunciones , etc. Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos, tablas, gráficos, que se suelen publicar en los periódicos. En la actualidad se entiende por estadística como un método para tomar decisiones, de ahí que se emplee en multitud de estudios científicos. La estadística se puede dividir en dos partes: Estadística descriptiva o deductiva, que trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones. Se construyen tablas y se representan gráficos, se calculan parámetros estadísticos que caracterizan la distribución, etc. Estadística inferencial o inductiva, que establece previsiones y conclusiones sobre una población a partir de los resultados obtenidos de una muestra. Se apoya fuertemente en el cálculo de probabilidades. Se llama Población al conjunto de todos los elementos que cumplen una determinada característica. EJEMPLO. Alumnos matriculados en la UMAG en el año 2005 Se llama Muestra a cualquier subconjunto de la población. EJEMPLO. Alumnos de Ingeniería matriculados en la UMAG en el año 2005 Se llama Carácter estadístico a la propiedad que permite clasificar a los individuos, puede haber de dos tipos : a) Cuantitativos: son aquellos que se pueden medir. EJEMPLO Nº de hijos, altura, temperatura. ELEMENTOS DE ESTADISTICA b) Cualitativos: son aquellos que no se pueden medir. EJEMPLO. Profesión, color de ojos, estado civil. Se llama Variable estadística al conjunto de valores que puede tomar el carácter estadístico cuantitativo (pues el cualitativo tiene "modalidades’’). Puede ser de dos tipos: a) Discreta: si puede tomar un número finito de valores. EJEMPLO. Nº de hijos b ) Continua: si puede tomar todos los valores posibles dentro de un intervalo. Ejemplo: temperatura, altura. EJEMPLO. Temperatura de una sustancia. Se llama Frecuencia absoluta fi (de un determinado valor xi) al número de veces que se repite dicho valor. Se llama Frecuencia absoluta acumulada Fi (de un determinado valor sí) a su frecuencia absoluta más la suma de las frecuencias absolutas de todos los valores anteriores. Se llama Frecuencia relativa hi es el cociente fi/N , donde N es el número total de datos . Se llama Frecuencia relativa acumulada Hi: es el cociente Fi/N. Si las frecuencias relativas las multiplicamos por 100 obtenemos los porcentajes. TRATAMIENTO DE LA INFORMACIÓN Se deben de seguir los siguientes pasos: a) Toma de Datos. b) Ordenamiento de los Datos. c) Recuento de frecuencias ELEMENTOS DE ESTADISTICA d) Agrupación de los datos, en caso de que sea una variable aleatoria continua o bien discreta pero con un número de datos muy grande se agrupan en clases. Los puntos medios de cada clase se llaman marcas de clase. Además se debe adoptar el criterio de que los intervalos sean cerrados por la izquierda y abiertos por la derecha. e) Construcción de la tabla estadística que incluirá, clases, marca de clases, fi, Fi, hi, Hi. EJEMPLO. Las notas de Matemáticas (entre 0 y 10) de una clase han sido las siguientes: 5 3 4 1 2 8 9 8 7 6 6 7 9 8 7 7 1 0 1 5 9 9 8 0 8 8 8 9 5 7 Se pide ordenar la información. Hacer una tabla de frecuencias y representaciones gráficas. DESARROLLO a) Tabla de Frecuencias: xi 0 1 2 3 4 5 6 7 8 9 fi 2 3 1 1 1 3 2 5 7 5 30 Fi 2 5 6 7 8 11 13 18 25 30 hi 2/30 3/30 1/30 1/30 1/30 3/30 2/30 5/30 7/30 5/30 1 Hi 2/30 5/30 6/30 7/30 8/30 11/30 13/30 18/30 25/30 30/30 ELEMENTOS DE ESTADISTICA b) Representaciones Gráficas: Para hacer más clara y evidente la información que nos dan las tablas se utilizan los gráficos, que pueden ser: Frecuenc ias absolutas fi Diagramas de Barras: Datos cualitativos de tipo discreto. En el eje y se pueden representar frecuencias absolutas o relativas. 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 Notas Histogramas: Datos cuantitativos de tipo continuo o discreto con un gran número de datos. El histograma consiste en levantar sobre cada intervalo un rectángulo cuya área es igual a su frecuencia absoluta fi. La altura de cada rectángulo vendrá dada por ni que se llama función de densidad. ELEMENTOS DE ESTADISTICA Polígonos de Frecuencia: frecuencias absolutas fi 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 notas Diagrama de sectores: 0 1 2 5 3 1 2 1 1 7 5 2 3 3 4 5 6 7 8 9 9 ELEMENTOS DE ESTADISTICA Otros gráficos pueden ser: Cartogramas Pirámides de población Diagramas lineales Pictogramas MEDIDAS DE TENDENCIA CENTRAL MEDIA ARITMÉTICA X La media aritmética para N datos, está dada por: x x1 x 2 ... x n N x i N , La media aritmética para datos agrupados, está dada por: x x1 f1 x 2 f2 ... x k fk f1 f2 ... fk xf i i N . En el caso de que los datos estén agrupados en clases, se tomará la marca de clase como xi. No siempre se puede clacular la media aritmética como por ejemplo cuando los datos son cualitativos o los datos están agrupados en clases abiertas. EJEMPLO. En el caso de las notas de matemática del ejemplo anterior la media aritmetica es 5,833. Compruébelo. MODA La moda es el valor de la variable que presenta mayor frecuencia absoluta. Puede haber más de una. Cuando los datos están agrupados en clases se puede tomar la marca de clase o utilizar la fórmula: ELEMENTOS DE ESTADISTICA M0 = Linf d1 + donde: Linf = límite inferior de la clase modal, d1 d2 =amplitud del intervalo , d1= diferencia entre la fi de la clase modal y la fi de la clase anterior y d2 = diferencia entre la fi de la clase modal y la fi de la clase posterior. También se puede hacer gráficamente: La moda si sirve para datos cualitativos, pero no tiene por que situarse en la zona central del gráfico. EJEMPLO. En el caso de las notas de matemática del ejemplo anterior, la moda es 8. Compruébelo. MEDIANA La mediana es el valor de la variable tal que el número de observaciones menores que él es igual al número de observaciones mayores que él. Si el número de datos es par, se debe tomar la media aritmética de los dos valores centrales de las observaciones ordenadas. Cuando los datos están agrupados la mediana viene dada por el primer valor de la variable cuya Fi excede a la mitad del número de datos. Si la mitad del número de datos coincide con Fi se tomará la semisuma ente este valor y el siguiente. Cuando los datos estén agrupados proporcionalidad o la fórmula: Md = Linf en clases se ELEMENTOS DE ESTADISTICA puede utilizar N Fi1 + 2 . fi Gráficamente se hace a partir del polígono de frecuencias acumuladas. EJEMPLO. Calcular la mediana, en el caso de las notas de matemática del ejemplo anterior. DESARROLLO Si ordenamos los datos de menor a mayor obtenemos: 001112345556677 777888888899999 La mediana es 7, por ser un numero par de datos. También se podría observar las Fi y ver que en el 7 se excede a la mitad del número de datos, es decir, sobrepasa el 15. CUANTILES Son parámetros que dividen la distribución en partes iguales, así por ejemplo la mediana los divide en dos partes iguales, los cuartiles son tres valores que dividen a la serie de datos en cuatro partes iguales, los quintiles son cuatro valores que lo dividen en 5 partes, los deciles en 10 y los percentiles en 100. Se calculan de la misma manera que la mediana. También se puede utilizar la fórmula: Cn = Linf + n N Fi 1 100 , fi donde n es el valor que deja el n porciento de los valores por debajo de él. MEDIDAS DE DISPERSION RANGO DE RECORRIDO ELEMENTOS DE ESTADISTICA Se llama Rango o recorrido a la diferencia entre el mayor valor y el menor. EJEMPLO. En el caso de las notas de matemática del ejemplo anterior, el rango es 9 – 0 = 9. VARIANZA s2 Se llama varianza a la media aritmética de los cuadrados de las desviaciones respecto a la media (desviación respecto a la media d = xi - x ). s2 = x1 x 2 x 2 x 2 ... (x n x)2 N x x 2 i N f1 x1 x f2 x 2 x ... fk ( x k x)2 = f1 f2 ... fk 2 s2 = = 2 f x i i , x 2 N . Al igual que la media en el caso de que los datos estén agrupados en clases , se tomará la marca de clase como xi . Otra forma de calcular s2 es: f x i 2 s = fx i i N i x N 2 f x = i 2 i x 2 2x i x N fx i i N 2 x 2 2x 2 = 2 x2 . Se llama desviación típica s a la raíz cuadrada de la varianza. Es más útil que la varianza ya que tiene las mismas dimensiones que la media. ELEMENTOS DE ESTADISTICA EJEMPLO. En el caso de las notas desviación típica es 2,922 y la varianza 8,539. Compruébelo. COEFICIENTES DE VARIACION Es el coefiente entre la desviación típica y la media aritmética. C.V. = . x Valores muy bajos indican muestras muy concentradas. DISTRIBUCIONES BIDIMENSIONALES VARIABLES ESTADÍSTICAS BIDIMENSIONALES Se llaman Variables Estadísticas Bidimensionales, a las variables que cuando al estudiar un fenómeno obtenemos dos medidas x e y, en vez de una como hemos hecho hasta ahora. EJEMPLO. La longitud y el diámetro de ciertos pernos; ingresos y gastos de las familias de los trabajadores de una empresa; edad y numeros de días que faltan al trabajo los empleados de una fábrica. TIPOS DE DISTRIBUCIONES BIDIMENSIONALES a) cualitativa - cualitativa b) cualitativa - cuantitativa (discreta o continua) c) cuantitativa (discreta o continua) - cuantitativa (discreta o continua) TIPOS DE TABLAS a) Tabla de dos columnas xi , yi (pocos datos) b) Tabla de tres columnas xi, yi, fi (muchos datos y pocos valores posibles) c) Tablas de doble entrada (muchos datos y muchos valores posibles) ELEMENTOS DE ESTADISTICA y1 y2 ..... ym fi* x1 f11 f12 ..... f1m f1* x2 f21 f22 ...... f2m f2* ...... ...... ...... ...... ...... ...... xn fn1 fn2 ...... fnm fn* f*j f*1 f*2 ...... f*m f**=N DIAGRAMAS DE DISPERSION a) Si hay pocos datos (tabla de dos columnas), se representan las variables en los ejes x e y. b) Si hay muchos datos pero muy agrupados (tabla de tres columnas y tablas de doble entrada), se hace igual pero con los puntos más gordos según la f i, o se pintan muchos puntos juntos, o se pinta en tres dimensiones x, y, fi, con lo que obtendríamos un diagrama de barras en tres dimensiones. Si hay muchos datos y muchos valores posibles, se pueden agrupar en clases, y se utilizan los estereogramas (3 dimensiones) en los que el volumen de cada prisma es proporcional a la frecuencia. También se puede tomar la marca de clase de los intervalos y tratar la variable continúa como si fuese discreta. CALCULO DE PARAMETROS Si hay pocos datos o están muy agrupados (tablas de 2 ó 3 columnas): yf y i i N s 2x f x i i x 2 N s 2y f y i i y N 2 . Entonces aparece un parámetro nuevo que es la covarianza, que es la media aritmética de las desviaciones de cada una de las variables respecto a sus medias respectivas, esto es: s xy f x i i x y i y N = fx y Si hay muchos datos (tablas de doble entrada): i i i N x y. x xf i i* N s 2x f s 2y f y i* s xy x i x 2 N *j j y 2 N f x ij i x ifij N y , f ij x i x x y j y N 2 N f ij y j y y f j *j N f x f y 2 N ELEMENTOS DE ESTADISTICA 2 ij i fij xiy j = N ij 2 j x2 y j fij N , , y2 , xy . CORRELACION O DEPENDENCIA Es la teoría que trata de estudiar la relación o dependencia entre las dos variables que intervienen en una distribución bidimensional, según sean los diagramas de dispersión podemos establecer los siguientes casos: a) Dependencia funcional o correlación nula : cuando no existe ninguna relación entre las variables .( r = 0 ) b) Dendencia funcional o correlación funcional : cuando existe una función tal que todos los valores de la variable la satisfacen ( a cada valor de x le corresponde uno solo de y o a la inversa ) (r = 1) c) Dependencia aleatoria o correlación curvilinea (ó lineal ): cuando los puntos del diagrama se ajustan a una linea recta o a una curva , puede ser positiva o directa , o negativa o inversa ( -1<r<0 ó 0<r<1) ELEMENTOS DE ESTADISTICA EJEMPLO. A 12 alumnos de las carreras técnicas se les toman las notas de los últimos exámenes de matemática, física y lenguaje: Matemáticas 2 3 4 4 5 6 6 7 7 8 10 10 Física 1 3 2 4 4 4 6 4 6 7 9 10 Lenguaje 2 5 7 8 5 3 4 6 7 5 5 9 Si representamos las variables matemáticas- física en un diagrama y matemáticas-lenguaje en otro vemos que la correlación es mucho más fuerte en el primero que en el segundo ya que los valores están más alineados . Compruébelo. COEFICIENTE DE CORRELACION LINEAL Es una forma de cuantificar de forma más precisa el tipo de correlación que hay entre las dos variables, esto es: r= s xy sxsy . REGRESION Consiste en ajustar lo más posible la nube de puntos de un diagrama de dispersión a una curva. Cuando esta es una recta obtenemos la recta de regresión lineal, cuando es una parábola, regresión parabólica , cuando es una exponencial obtenemos una regresión exponencial, etc. La recta de regresión de y sobre x está dada por: ELEMENTOS DE ESTADISTICA yy s xy s 2x (x x) , el cual se hace mínima la distancia entre los valores yj obtenidos experimentalmente y los valores teóricos de y. A valor s xy s 2x se le llama coeficiente de regresión de y sobre x (nos da la pendiente de la recta de regresión). La recta de regresión de x sobre y está dada por: xx s xy s 2y (y y) , en la cual se hace mínima la distancia entre los valores obtenidos experimentalmente y los valores teóricos de x. A valor s xy s 2y se le llama coeficiente de regresión de x sobre y (su inversa nos da la otra pendiente). TALLER 1. Un artículo presenta los siguientes datos sobre el octanaje de varias mezclas de gasolina: 88.5 94.7 84.3 90.1 89.0 89.8 91.6 87.7 91.1 86.7 93.4 96.1 89.6 90.4 83.4 91.0 88.2 88.5 93.3 87.4 91.1 86.7 94.2 90.8 90.1 91.8 88.4 92.6 87.5 87.8 88.3 89.2 92.3 88.9 89.8 91.5 89.9 98.8 88.3 90.4 91.2 90.6 88.6 100.3 88.3 87.6 94.2 92.7 85.3 87.9 90.1 93.0 89.3 94.4 91.1 90.4 96.5 84.3 93.2 88.6 88.7 92.7 89.3 93.3 86.7 91.0 90.9 89.9 91.8 89.7 1.1 Calcule e interprete el significado de la media aritmética y la mediana de los datos. 1.2 Calcule la desviación media y la desviación típica de los datos. ELEMENTOS DE ESTADISTICA 1.3 Construya una tabla de distribución de frecuencias de 7 categorías, de modo que la primera sea (82 – 85). 1.4 Construya una histograma y haga un análisis del resultado. 1.5 Calcule e interprete el significado de la media aritmética y la mediana de los datos agrupados. Compare los resultados con los obtenidos en 1.1. 1.6 Calcule e interprete el significado del quintil 4 de los datos agrupados. 1.7 Determine que octanaje deja sobre él al 10% de los datos. 2. La siguiente es la información entregada por el software Stadis respeto de mediciones de la temperatura en grados Fahrenheit del fluído de descarga de una planta para el tratamiento de aguas negras durante varios días consecutivos: MEDIDAS DE TENDENCIA CENTRAL (var. X) - Tamaño Muestral Media Aritmética Mediana Moda Cuartil Q(1) Cuartil Q(3) 72 48.5 48.609 48.571 46.261 51.143 MEDIDAS DE DISPERSION (var. X) - Varianza - Desviación Típica - Desviación Media - Coef. Variación de Pearson - Recorrido - Máximo - Mínimo 11.5 3.3391 2.833 0.07 12.0 53.5 41.5 Interprete el significado de cada uno de los resultados. ELEMENTOS DE ESTADISTICA 3. En la siguiente tabla se muestran las medidas del espesor de recubrimiento de un cierto alambre galvanizado obtenidas mediante un método estándar “y” y un método magnético “x”. Se desea obtener la mejor relación lineal que permita a “y” en función de “x”. Y 116 132 104 139 114 129 720 174 342 338 465 x 105 120 85 121 115 127 630 155 250 310 443 Resp. y = 1.11 x + 5.57