Apuntes de A. Cabañó Matemáticas aplicadas a cc.ss. VARIABLES ESTADÍSTICAS UNIDIMENSIONALES. CONTENIDOS. • • • • • • Introducción a la Estadística descriptiva. Terminología básica: población, muestra, individuo, carácter. Variable estadística: discretas y continuas. Organización de datos. Tablas de frecuencias. Representaciones gráficas: diagramas de barras e histogramas. Medidas de centralización: media, moda y mediana. Medidas de posición: cuartiles y percentiles. Medidas de dispersión: rango, rango intercuartílico, varianza y desviación típica. Dispersión relativa: coeficiente de variación. Introducción a la estadística descriptiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones. Se construyen tablas y se representan gráficos y asimismo, se calculan parámetros estadísticos que caracterizan la distribución. En general, se llama población al conjunto de todos los elementos que cumplen una determinada característica. Los elementos de la población se llaman individuos o unidades estadísticas. Se llama muestra a cualquier subconjunto de la población. El número de elementos de una muestra se denomina tamaño. El proceso mediante el cual se extrae una muestra representativa de la población se conoce con el nombre de muestreo aleatorio. Se llama carácter estadístico a una propiedad que permite clasificar a los individuos de la población. Se distinguen dos tipos: • Caracteres estadísticos cuantitativos son aquellos que se pueden medir. • Caracteres estadísticos cualitativos son aquellos que no se pueden medir. Se llama modalidad de un carácter estadístico a cada una de las diferencias que se pueden establecer dentro de un mismo carácter cualitativo. El conjunto de valores numéricos que puede tomar un carácter cuantitativo se llama variable estadística. Variable estadística. Las variables estadísticas pueden ser discretas o continuas. • Una variable estadística es discreta cuando puede tomar un número finito de valores o infinito numerable. • Una variable es continua cuando puede tomar, al menos teóricamente, todos los valores posibles dentro de un cierto intervalo de la recta real. Los valores de las variables estadísticas se acostumbra representarlos por x1,x2,x3.....xn. Se llama frecuencia absoluta del valor xi y la representamos por ni, al número de veces que se repite dicho valor. Se llama frecuencia absoluta acumulada del valor xi y la representamos por Ni, a la suma de las frecuencias absolutas de todos los valores anteriores a xi, más la frecuencia absoluta de xi: Ni=n1+n2+n3+......+ni Se llama frecuencia relativa de un valor xi y la representamos por fi, al cociente entre la frecuencia absoluta de xi y el número total de datos que intervienen en la distribución: fi = ni n siendo n el número total de datos. Se llama frecuencia relativas acumuladas del valor xi a la expresión: Fi=f1+f2+f3+......+fn 1 Variables estadísticas unidimensionales Apuntes de A. Cabañó Matemáticas aplicadas a cc.ss. Representaciones gráficas. Diagramas de barras: para trazarlos se representan sobre el eje de abscisas los valores de la variable, y sobre el eje de ordenadas las frecuencias absolutas o relativas, según proceda. A continuación por los puntos marcados en el eje de abscisas se levantan trazos gruesos o barras, de longitud igual a la frecuencia correspondiente. Los polígonos de frecuencias se forman uniendo los extremos de las barras mediante una línea quebrada. Los histogramas se utilizan para distribuciones de variable estadística continua y que se han agrupado en clases generalmente de igual amplitud. Para construir el histograma se representan sobre el eje de abscisas los límites de las clases. Sobre dicho eje se construyen unos rectángulos que tienen por base la amplitud del intervalo, y por altura, la frecuencia absoluta de cada intervalo, siempre que todos los intervalos tengan igual amplitud. En caso contrario, las alturas de los rectángulos han de ser calculadas teniendo en cuenta que sus áreas deben ser proporcionales a las frecuencias de cada intervalo. Medidas de centralización. A las medidas de centralización se les lama así porque tienden a situarse, en general, hacia el centro del conjunto de datos ordenados. Se llama media aritmética de una variable estadística a la suma de todos los valores de dicha variable dividido por el número de valores. p x= ∑x n i i =1 i n Se llama moda de una variable estadística al valor de la variable que presenta mayor frecuencia absoluta. La moda se representa por Mo En caso de que los datos se encuentren agrupados en intervalos es fácil determinar la clase modal (clase con mayor frecuencia). La moda se obtiene a partir de la siguiente expresión: M o = Li + c ⋅ D1 D1 + D2 Li= límite inferior de la clase modal c= amplitud de los intervalos D1= diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase anterior. D2= diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de la clase siguiente. Se llama mediana de una variable estadística a un valor de la variable, tal que el número de observaciones menores que él es igual al número de observaciones mayores que él. Es decir, el número de datos que preceden a la mediana es igual al número de datos que la siguen. La mediana de una variable se representa por M Para calcular la mediana en el caso de variable estadística discreta primeramente se realiza la tabla estadística de frecuencias. La mediana viene dada por el primer valor de la variable cuya frecuencia absoluta acumulada excede a la mitad del número de datos. En el caso de que la mitad del número de datos coincida con la frecuencia absoluta acumulada correspondiente a un valor, la mediana es la semisuma entre ese valor y el siguiente de la tabla. En el caso de variable estadística continua, resulta fácil detectar cuál es la clase mediana (donde se alcanzan la mitad de los datos) y a continuación aplicamos la siguiente expresión: n − N i −1 2 M = Li + c ni Li=límite inferior de la clase mediana n=número total de datos c=amplitud del intervalo Ni-1=frecuencia absoluta acumulada de la clase anterior a la clase mediana ni=frecuencia absoluta de la clase mediana 2 Variables estadísticas unidimensionales Apuntes de A. Cabañó Matemáticas aplicadas a cc.ss. Medidas de posición. Se llaman cuartiles a tres valores que dividen la serie de datos en cuatro partes iguales. Se representan por Q1 , Q2 y Q3 y se designan cuartil primero, segundo y tercero, respectivamente n − N i −1 4 Q1 = Li + c ni 3n − N i −1 4 Q3 = Li + c ni Q2=M Para utilizar las expresiones anteriores se actuará como en el caso de la mediana. Se llaman percentiles a 99 valores que dividen la serie de datos en 100 partes iguales. Se representan por P1, P2....... An − N i −1 100 PA = Li + c ni Siendo A cualquier número del 1 al 99. Medidas de dispersión. Se llama recorrido de una distribución a la diferencia entre el mayor y el menor valor de la variable estadística. Se define rango intercuartílico a la diferencia entre el cuartil tercero y el primero. Q=Q3-Q1 Se llama desviaciones respecto a la media a las diferencias entre cada valor de la variable y la media aritmética. Se llama varianza de una variable a la media aritmética de los cuadrados de las desviaciones respecto a la media. Se llama desviación típica de una variable a la raíz cuadrada positiva de la varianza. La varianza se representa por s2, y la desviación típica se representa por s. Para calcular la varianza utilizaremos la siguiente expresión: s2 = ∑n x i i =1 n 2 i −x 2 La varianza es siempre positiva o nula. Es nula cuando todos los datos son iguales a la media. Tanto la varianza como la desviación típica son medidas de dispersión, de tal manera que cuanto menores son estos dos parámetros más agrupados se encuentran los valores de la distribución en torno a los valores centrales; por el contrario, para valores grandes de la varianza o de la desviación típica los datos de la distribución se encuentran muy dispersos, es decir, poco agrupados en torno a los valores centrales. Para distribuciones unimodales y simétricas se puede demostrar que: • En el intervalo ( x − s, x + s ) se encuentra el 68% de los datos • En el intervalo ( x − 2 s, x + 2 s ) se encuentra el 95% de los datos. Se llama coeficiente de variación al cociente entre la desviación típica y la media aritmética d= s .Obsérvese que cuando la media aritmética se acerca a cero el coeficiente de variación x no tiene gran utilidad, ya que toma valores infinitamente grandes. Este coeficiente relaciona una medida de dispersión con una de centralización. Ejemplo De un grupo de 30 personas hemos ido apuntando la edad de cada uno, obteniendo lo siguiente: 3 Variables estadísticas unidimensionales Apuntes de A. Cabañó Matemáticas aplicadas a cc.ss. 3 25 30 5 7 18 25 23 35 43 28 17 15 12 8 4 9 37 32 41 36 28 28 15 18 20 19 27 25 40 a) Haz una tabla de frecuencias, agrupando los datos en intervalos de longitud 5, empezando en 0. b) Representa gráficamente la distribución. a) Intervalo Frecuencia [0,5) 2 [5,10) 4 [10,15) 1 [15,20) 6 [20,25) 2 [25,30) 7 [30,35) [35,40) [40,45) 2 3 3 30 b) EjemploLas notas de una clase obtenidas en un examen de matemáticas vienen recogidas en la siguiente tabla: a) Calcula la media y la desviación típica. b) ¿Qué porcentaje de alumnos hay en el intervalo ( x − σ, x + σ )? 4 Variables estadísticas unidimensionales Apuntes de A. Cabañó Matemáticas aplicadas a cc.ss. a) x= xi fi x if i f i xi 2 1 1 1 1 2 1 2 4 3 2 6 18 4 2 8 32 5 6 30 150 6 4 24 144 7 8 9 10 5 3 3 2 29 35 24 27 20 177 245 192 243 200 1229 Σ fi xi 177 = = 6,1 n 29 2 Σ fi x i 1229 − x2 = − 6,12 = 5,17 = 2,27 n 29 La nota media de la clase es de 6,1, con una desviación típica de 2,27. σ = b) x − σ = 3,83 En el intervalo ( 3,83; 8,37) hay 20 alumnos, que representan un 68,97% del total. x + σ = 8,37 EjemploLa nota media de una clase, A, en un examen ha sido 5,5, con una desviación típica de 2,1. En otra clase, B, la nota media en el mismo examen ha sido 7,3 y la desviación típica, de 2,6. Calcula el coeficiente de variación y compara la dispersión de ambos grupos. σA 2,1 = = 0,382 5,5 xA σ 2,6 = 0,356 C.V.B = B = 7,3 xB C.V. A = → → 38,2% La variación es un poco mayor en el grupo A. 35,6% EjemploTiramos sucesivamente una moneda y anotamos el número de lanzamientos que necesitamos hasta obtener por primera vez cara. Realizamos el experimento 100 veces, con los siguientes resultados: Calcula Me, Q1, Q3 y p30. Hacemos la tabla de frecuencias acumuladas: 5 Variables estadísticas unidimensionales Apuntes de A. Cabañó Matemáticas aplicadas a cc.ss. xi fi Fi en % 1 48 48 48 2 25 73 73 3 16 89 89 4 4 93 93 5 5 98 98 6 2 100 100 Me = 2 Q1 = 1 Q3 = 3 p30 = 1 El 50% de las veces hemos hecho 2 o menos tiradas, y el 50% restante hemos hecho 2 o más tiradas. Análogamente se interpretan: Q1 = 1 ( 25 %, 75 % ) ; Q 3 = 3 ( 75 %, 25 % ) y p 30 = 1 ( 30 %, 70 % ) Ejemplo Al medir la estatura, en centímetros, en un grupo de 50 personas, hemos obtenido la siguiente información: Calcula gráfica y numéricamente Me y Q1. Construimos el polígono de frecuencias acumuladas: Extremos Fi % 150 0 0 155 6 12 160 15 30 165 27 54 170 42 84 175 50 100 Obtengamos los valores exactos, razonando sobre el polígono de frecuencias: Me: Q1: 6 Variables estadísticas unidimensionales Apuntes de A. Cabañó Matemáticas aplicadas a cc.ss. 18 13 = x 5 x = 3,61 Q1 = 155 + 3,61 = 158,61 24 20 = x 5 x = 4,17 Me = 160 + 4,17 = 164,17 Los valores exactos son: Me = 164,17; Q1 = 158,61 EJERCICIOS. 1. Las puntuaciones obtenidas en un test por 20 alumnos son las siguientes: 16,22,21,20,23,22,17,15,13,22,17,18,20,17,22,16,23,21,22,18. a) Construir la tabla de frecuencias. b) Representa el diagrama de barras de frecuencias absolutas y frecuencias absolutas acumuladas. 2. Se ha aplicado un test de capacidad espacial compuesto por 100 preguntas a un grupo de 100 alumnos, habiéndose obtenido los siguientes resultados: Nº de preguntas correctas [0-15) [15-30) [30-45) [45-60) [60-75) [75,90) Nº de alumnos 10 15 25 20 20 10 a) Formar la tabla de frecuencias b) Representar el histograma de frecuencias absoluta y el histograma de frecuencias absolutas acumuladas. c) Representar los polígonos de frecuencias. 3. Dada la serie estadística: 3,5,2,7,6,4,9 hallar: a) b) c) d) La media, la mediana y la moda El rango, la desviación típica y la varianza Los cuartiles 1º y 3º Los percentiles 20, 32 y 85. 4. Dada la distribución siguiente: xi ni 2 3 4 5 6 7 7 4 9 2 Hallar: a) La media, la mediana y la moda b) El rango, la desviación típica y la varianza c) Los cuartiles 1º y 3º d) Los percentiles 30 y 70 5. Dada la distribución siguiente: xi ni [10-15) 3 [15-20) 5 [20-25) 7 [25-30) 4 [30-35) 2 Hallar: a) La media, la mediana y la moda b) El rango, la desviación típica y la varianza 7 Variables estadísticas unidimensionales Apuntes de A. Cabañó Matemáticas aplicadas a cc.ss. c) Los cuartiles 1º y 3º d) Los percentiles 30 y 70 6. Se ha aplicado un test a los empleados de una fábrica, obteniéndose la siguiente tabla: xi Nº trab. [38-44) 7 [44-50) 8 [50-56) 15 [56-62) 25 [62-68) 18 [68-74) 9 [74-80) 6 Se pide: a) Histograma y polígono de frecuencia absoluta acumulada. b) Calcular la mediana y la moda. 7. Los resultados obtenidos al lanzar un dado 200 veces vienen reflejados en la siguiente tabla: Nº de puntos Repeticiones 1 ¿ 2 32 3 35 4 33 5 ¿ 6 35 Determinar las frecuencias que faltan sabiendo que la puntuación media es 3,6 y calcular la mediana y la moda. 8. Se ha realizado un test, compuesto de 10 preguntas, a 40 alumnos de un grupo, con los siguientes resultados: Nº de respuestas Nº de alumnos [0,2) 4 [2,4) 9 [4,6) 15 [6,8) 7 [8,10) 5 Se pide: a) El histograma de frecuencias. b) Calcular el valor de la moda. c) ¿A partir de qué valor se encuentra el 70% de los alumnos que han obtenido la mejor nota? 9. La asistencia de espectadores a cada sala de la cadena de cine “El Cisne” el día 17 de Julio de 200, 500, 300 y 1000personas. Calcular la dispersión (coeficiente de variación) del número de asistentes. Si el día del espectador acuden 50 personas más a cada sala ¿qué efecto tendrá sobre la dispersión? 10. Completa los datos que faltan: xi ni Ni fi 1 4 . 0.08 2 4 . . 3 . . 0.16 4 7 23 . 5 5 . . 6 . 38 . 7 7 45 . 8 . . . Calcula la media y la moda de la distribución anterior. 8 Variables estadísticas unidimensionales