I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 TEMA 8: ESTADÍSTICA DESCRIPTIVA. 8.1 Introducción. La palabra “ESTADÍSTICA” procede del vocablo “Estado”, pues era función principal de los gobiernos de los Estados establecer registros de población, nacimientos, defunciones, cosechas, impuestos, etc. Desde su origen, que se remonta a los trabajos demográficos de John Graunt sobre la mortalidad de los habitantes de Londres en 1660, la Estadística Descriptiva ha recibido numerosa definiciones, una de ellas es la siguiente: “La Estadística Descriptiva es un método de descripción numérica de conjuntos numerosos”. Se opone a los métodos de descripción cualitativos más ricos y más matizados en el detalle, pero limitados en su carácter impreciso y subjetivo. “Al lenguaje de la letra la Estadística opone el lenguaje de los números”. La Estadística no se ocupa de los casos raros que, en general, son mal conocidos, la anécdota no pertenece al dominio estadístico, lo cual separa al estadístico del especialista de lo excepcional que es el periodista. La Estadística Descriptiva es una herramienta que se aplica a todos los dominios de la investigación cuantitativa: demografía, economía, agronomía, biología, medicina, industria,… No obstante la crítica e interpretación de los resultados obtenidos, no son propiamente hablando, de la competencia de la Estadística Descriptiva. En ocasiones se la condena por el mal uso que se hace de ella, sobre todo en el ámbito político y periodístico, que la utilizan para manipular y argumentar conclusiones preestablecidas e interesadas. 8.2 Conceptos: Definiciones y Nomenclatura. ⇒ Población y Muestra: Se llama POBLACIÓN al conjunto de todos los elementos que cumplen una determinada condición. Los elementos de la población se llaman individuos (origen demográfico) o unidades estadísticas. Se llama MUESTRA a cualquier subconjunto de la población. El número de individuos de la muestra o de la población se llama tamaño. EJEMPLO: En un sondeo de opinión realizado para conocer la intención de voto de los habitantes de una ciudad, la Población estará formada por el conjunto de todos los ciudadanos con derecho a voto. De ella se extraerá un conjunto de personas a las que se entrevistará, este conjunto constituirá la Muestra. 1 I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 ⇒ Caracteres y Modalidades: Se llama CARÁCTER ESTADÍSTICO a una propiedad que permite clasificar a los individuos de la población; se distinguen dos tipos: ○ Carácter Estadístico Cuantitativo: Es aquél que se puede medir numéricamente. ○ Carácter Estadístico Cualitativo: Es aquél que no se puede medir numéricamente. Se llaman MODALIDADES de un carácter a cada una de las situaciones que puede presentar. ⇒ Variables Estadísticas y Atributos: Al conjunto de las modalidades de un carácter cuantitativo se le denomina VARIABLE ESTADÍSTICA, y al de un carácter cualitativo ATRIBUTO. Se distinguen dos tipos de Variables Estadísticas: ○ Variable Estadística Discreta: cuando la variable toma números aislados, que se puedan separar. ○ Variable Estadística Continua: cuando la variable toma valores continuos, todos los que hay entre dos números. No las estudiaremos en este curso. Cuantitativos → Variable Estadística CARACTERES Cualitativos → Atributo Discreta Continua EJEMPLOS: • Caracteres cuantitativos: Talla de un individuo, diámetro de una pieza industrial, deuda de los estados, calificación de un alumno en cierto examen. • Caracteres cualitativos: La profesión de un trabajador, El estado civil de una persona, el color de los ojos de un individuo, el idioma elegido por un alumno en la ESO. Variable estadística: Talla de un individuo: X = {1.62, 1.76, 1.81, 1.73, ...} • Variables estadísticas discretas: nº de empleados de una fábrica, nº de hijos de las familias de Alcaudete. • Variables estadísticas continuas: diámetro de las ruedas de varios coches, talla de los alumnos de la clase. Atributo: Profesión de los padres de los alumnos de la clase: agricultor, carnicero, carpintero, camionero, comerciante,... 2 I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 8.3 Frecuencias Absolutas y Relativas. Tablas Estadísticas. Partimos de una población de individuos a los que pretendemos estudiar un carácter que presenta distintas modalidades. ⇒ Frecuencias absolutas: ○ Se llama FRECUENCIA ABSOLUTA de cierta modalidad, al número de individuos que la presenta. Se notan como: n1, n2, n3, … La suma de todas coincide con el tamaño de la población. ○ Se llama FRECUENCIA ABSOLUTA ACUMULADA de cierto valor de una variable estadística, a la suma de las frecuencias absolutas de todos los valores menores o iguales. Se notan como: N1, N2, N3, … La última coincide con el tamaño de la población. Sólo tiene sentido en el estudio de los caracteres cuantitativos (variable estadística). ⇒ Frecuencias relativas: ○ Se llama FRECUENCIA RELATIVA de cierta modalidad, al cociente entre la frecuencia absoluta de la modalidad y el tamaño de la población, se notan como: f1 = n1 , N f2 = n2 , N f3 = n3 , ... con N, el tamaño de la población N Si las multiplicamos por 100 obtenemos los porcentajes de cada modalidad. La suma de todas coincide con 1 y la suma de los porcentajes con 100. ○ Se llama FRECUENCIA RELATIVA ACUMULADA de cierto valor de una variable estadística, a la suma de las frecuencias relativas de todos los valores menores o iguales. Se pueden calcular con las frecuencias absolutas acumuladas. F1 = N1 , N F2 = N2 , N F3 = N3 , ... con N, el tamaño de la población N Si las multiplicamos por 100 obtenemos los porcentajes acumulados de valor de la variable La última coincide con 1 y el último porcentaje con 100 Sólo tiene sentido en el estudio de los caracteres cuantitativos (variable estadística). Veamos con un ejemplo como se organizan las frecuencias anteriores en una tabla. 3 I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 EJEMPLO: Calificaciones en Matemáticas de los 30 alumnos de una clase: 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7. • Población: Los alumnos de cierta clase. (Los individuos son los alumnos de la clase) • Tamaño de la población: N = 30 • Carácter: Nota en Matemáticas (CUANTITATIVO) (Las modalidades son las notas) • Variable estadística: X: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 (VARIABLE ESTADÍSTICA DISCRETA) X 0 1 2 3 4 5 6 7 8 9 n 2 3 1 1 1 3 2 5 7 5 30 N 2 5 6 7 8 11 13 18 25 30 f 0,07 0,10 0,03 0,03 0,03 0,10 0,07 0,17 0,23 0,17 1,00 F 0,07 0,17 0,20 0,23 0,26 0,36 0,43 0,60 0,83 1,00 % 7 10 3 3 3 10 7 17 23 17 100 % ac. 7 17 20 23 26 36 43 60 83 100 8.4 Gráficos Estadísticos. Aunque las tablas encierran toda la información disponible, es necesario traducirla a un gráfico para sintetizar visualmente la información. Según la naturaleza del carácter estudiado se utilizan distintos tipos de gráficos. En este tema sólo vamos a estudiar: diagramas de barras, polígonos de frecuencias y diagramas de sectores. En el libro puedes estudiar otros tipos de gráficos. ⇒ Diagrama de Barras o Bastones: Se representan sobre el eje horizontal los valores de la variable, y sobre el eje vertical las frecuencias (absolutas, relativas o acumuladas). A continuación, por los valores de la variable se levantan barras verticales de longitudes iguales a las frecuencias que se quieran representar. 4 I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 EJEMPLO: Tomamos los datos del ejemplo anterior. Frecuencias absolutas 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 Calificaciones ⇒ Polígono de Frecuencias: Completa el gráfico anterior, se dibuja uniendo los extremos de las barras. Frecuencias absolutas 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 Calificaciones ⇒ Diagrama de Sectores: Se representan las distintas modalidades de un carácter mediante sectores circulares. El ángulo central de cada sector ha de ser proporcional a la frecuencia. Hay que establecer en la tabla de frecuencias, las proporciones entre los porcentajes y los ángulos de cada modalidad. 5 I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 EJEMPLO: Estudiamos el nº de hijos por familia en una muestra de 24 familias. X: 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3. X n 0 2 f F % ac Áng. Áng. Ac. 8 8 290 290 0.5 42 50 1510 1800 0.08 0.08 1 10 0.42 % 2 8 0.33 0.83 33 83 1190 2990 3 4 0.17 17 100 610 3600 24 1 1 3600 100 3 17% 0 8% 0 1 2 3 2 33% 1 42% 8.5 Parámetros Estadísticos: Reducción de Datos. El proceso de Reducción de Datos tiene como objetivo: resumir y sintetizar un gran número de datos en unos pocos números (Parámetros Estadísticos), que nos proporcionan una idea, lo más aproximada posible, de todos los datos. Es evidente que todo proceso de síntesis conlleva una pérdida de información, pero se gana en el hecho de que es más fácil trabajar con unos pocos parámetros, con significado muy preciso, que con la totalidad de los datos. Distinguiremos entre PARÁMETROS DE CENTRALIZACIÓN, nos informan de lo que ocurre en el centro del conjunto de datos; y los PARÁMETROS DE DISPERSIÓN, que nos informan de cómo de homogéneos son los datos y les dan significación a los primeros. 6 I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 PARÁMETROS DE CENTRALIZACIÓN. ⇒ Media Aritmética: Se llama MEDIA ARITMÉTICA de una variable (carácter cuantitativo) a la suma de todos los datos, dividida por el tamaño de la población. Se nota x x= x1 · n1 + x 2 · n 2 + x 3 · n3 + ... n1 + n 2 + n3 + ... OBSERVACIONES: ○ Es el parámetro más utilizado. ○ Tiene en cuenta todos los datos. ○ Su cálculo es sencillo. ○ No está definido para caracteres cualitativos. ○ Los datos raros pueden afectar negativamente su representatividad. EJEMPLO: Seguimos con los datos del ejemplo anterior: X n x·n 0 2 0 1 10 10 2 8 16 3 4 12 24 38 x= x 1 · n1 + x 2 · n 2 + x 3 · n 3 + ... 0 + 10 + 16 + 12 38 = = ≈ 1.58 n1 + n 2 + n 3 + ... 24 24 ⇒ Moda: Se llama MODA de una variable o atributo, a la modalidad que presenta una mayor frecuencia absoluta. Se nota M0 OBSERVACIONES: ○ No tiene porque ser única. ○ En caracteres cualitativos es muy útil, por no existir la media. ○ El no tener en cuenta todos los datos le resta representatividad. ○ No siempre se sitúa en el centro del conjunto de datos. ○ No se ve afectada por los datos raros, poco frecuentes. ○ Su cálculo e interpretación es muy sencilla. 7 I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 EJEMPLO: Seguimos con los datos del ejemplo anterior: X n 0 2 1 10 2 8 3 4 Máximo de n : 10 ⇒ MO = 1 24 ⇒ Mediana: Se llama MEDIANA de una variable (carácter cuantitativo), al valor de la variable, que ordenados los datos, deja el mismo número a la izquierda (menores que él) que a su derecha (mayores que él). Se nota M. Para su cálculo tomamos el primer valor de la variable que supere en frecuencia absoluta acumulada, a la mitad del número de datos (tamaño de la población); si coincidieran se tomará como mediana el valor medio de ese valor y el siguiente. OBSERVACIONES: ○ No está definido para caracteres cualitativos. ○ No se ve afectados por los valores extremos, puesto que no depende de los valores de los datos sino de su orden. EJEMPLO: Calificaciones en Matemáticas de los 30 alumnos de una clase: 5, 3, 4, 1, 2, 8, 9, 8, 7, 6, 6, 7, 9, 8, 7, 7, 1, 0, 1, 5, 9, 9, 8, 0, 8, 8, 8, 9, 5, 7 Ordenamos los datos: 0, 0, 1, 1, 1, 2, 3, 4, 5, 5, 5, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9 M=7 X 0 1 2 3 4 5 6 7 8 9 n 2 3 1 1 1 3 2 5 7 5 30 N 2 5 6 7 8 11 13 18 25 30 N 30 = = 15 2 2 El primer valor de N que supera a 15 es 18 que corresponde al valor de la variable 7 Por tanto M = 7 8 I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 PARÁMETROS DE DISPERSIÓN. Tratan de darnos información sobre la agrupación de los datos en torno de los parámetros de centralización. Nos indican si la población, con respecto a un carácter, es más o menos homogénea, es decir, cómo de dispersos aparecen los datos. A menos dispersión, más representativos serán los parámetros de centralización. Sólo están definidos para caracteres cuantitativos. ⇒ Rango o Recorrido: Se llama RANGO o RECORRIDO de una variable estadística, a la diferencia entre el mayor valor y el menor valor de la variable, se nota como R. OBSERVACIONES: ○ A menor Rango, mayor representatividad de los parámetros de centralización. ○ Su cálculo es muy sencillo. ○ Depende sólo de los datos extremos, no tiene en cuenta al resto, por lo que es muy sensible valores erróneos de la muestra. ○ Se aplica sobre todo en los “Controles de Calidad”. EJEMPLO: En el ejemplo sobre las calificaciones en Matemáticas de 30 alumnos. El mayor valor de la variable es 9 y el menor es 0. Por tanto R = 9 – 0 = 9. ⇒ Varianza y Desviación Típica: Se define la VARIANZA de una variable estadística, como la media aritmética de las desviaciones cuadráticas con respecto a la media. Se nota como Var( X ). 2 n · x + n1· x 1 + n1 · x 1 + ... Var (X ) = 1 1 −x n1 + n 2 + n3 + ... 2 2 2 Se define la DESVIACIÓN TÍPICA de una variable estadística como la raíz cuadrada positiva de su varianza. Se nota como s. s = + Var (X ) 9 I.E.S. “Salvador Serrano” de Alcaudete Departamento de Matemáticas – 2º ESO 2011 / 12 OBSERVACIONES: ○ Se define de manera objetiva. ○ Usa todos los datos. ○ Su cálculo es sencillo, pero pesado. ○ No tiene un sentido concreto en sí misma y tiene significado para valorar la representatividad de la media aritmética. ○ La desviación típica se mide en las mismas unidades que los datos, la varianza lo hace en unidades cuadradas. EJEMPLO: Retomamos el ejemplo del nº de hijos por familia en una muestra de 20 familias. x · n x2 · n X n 0 2 0 0 1 10 10 10 x= x 1 · n1 + x 2 · n 2 + x 3 · n 3 + ... 0 + 10 + 16 + 12 38 = = = 1.58 n1 + n 2 + n 3 + ... 24 24 Var (X ) = 2 x 1 · n1 + x 2 · n 2 + x 3 · n 3 + ... 0 + 10 + 32 + 36 2 −x = − (1.58 ) = N 24 2 2 2 2 8 16 32 3 4 12 36 = 24 38 78 s = + Var (X ) = 0.753 = 0.868 78 2 − (1.58 ) = 3.25 − 2.496 = 0.753 24 10