ESTADÍSTICA La Estadística es la parte de las Matemáticas que estudia métodos para interpretar datos obtenidos de investigaciones o experimentos aleatorios (aquellos en los que no se puede predecir el resultado aunque se realicen siempre en las mismas condiciones), con el fin de extraer de ellos unas conclusiones. La Estadística puede ser: a) Descriptiva.-Trata de obtener unas conclusiones a partir de ciertos datos mediante el empleo de gráficos o la obtención de unos ciertos valores que los representen a todos. Llamados parámetros estadísticos. b) Inferencial.-Trata de determinar los valores que adoptarán una serie de datos muy numerosos, que forman una población mediante el estudio de unos cuantos de ellos extraídos de la población de una manera significativa y que forman una muestra. La Estadística descriptiva se encarga de estudiar una o varias de las características de un conjunto de elementos. Para conseguirlo necesitará: - Recoger los datos. - Registrar y ordenar los datos en tablas. - Representar y resumir los datos mediante gráficas que faciliten su interpretación. - Calcular unos “números” llamados estadísticos, que describen y simplifican los datos recogidos para el estudio a efectuar.. Conceptos básicos: Población: es el conjunto de todos los elementos objeto de nuestro estudio. Muestra: es un subconjunto extraído de la población, cuyo estudio sirve para inferir características de toda la población. Tendrá que ser representativo y aleatorio. La Teoría de Muestreo es la encargada de estudiar las condiciones óptimas para la elección de las muestras según el estudio a hacer. Individuo: es cada uno de los elementos del conjunto que forman la población o la muestra. Caracteres y variables estadísticas: son los aspectos que deseamos estudiar en los individuos de una población. Cada carácter puede tomar distintos valores o modalidades. Ejemplo: Un fabricante de tornillos desea hacer un control de calidad. Para ello, recoge 1 de cada 100 tornillos producidos y lo analiza para llegar a la conclusión de que es CORRECTO o DEFECTUOSO. - POBLACIÓN: el conjunto de todos los tornillos producidos. - MUESTRA: los tornillos analizados. - INDIVIDUO: cada uno de los tornillos. - CARÁCER ESTADÍSTICO: “estado de los tornillos”. Sólo hay dos modalidades de la variable. Defectuoso y no defectuoso. Se trata de una variable cualitativa. Las variables estadísticas pueden ser: Cualitativas: son las que no toman valores numéricos. Presentan modalidades. Ejemplo: Variable estadística X = estado civil X = { casado, soltero, viudo, divorciado} x1 = casado, x 2 = soltero, x3 = viudo, x 4 = divorciado. Es una variable cualitativa, con cuatro modalidades distintas. Cuantitativas: son las que toman valores numéricos. A su vez se clasifican en: - Discretas o no agrupadas: son las que toman valores numéricos aislados. Ejemplo: X = El número de hijos. - Continuas o agrupadas: son las que pueden tomar todos los valores de un intervalo. Ejemplo: X = Altura media de todos los estudiantes de bachillerato. 1 CONFECCIÓN DE TABLAS DE FRECUENCIAS Definiciones: Tamaño muestral: es el número de individuos total de la población o muestra a estudiar. Lo denotamos por la letra N. Frecuencia absoluta de un resultado es el número de veces que se presenta dicho resultado. La representaremos por ni. Frecuencia relativa de un resultado es la frecuencia absoluta dividida por el número total de veces que se ha realizado el experimento. Es decir, entre el tamaño de la muestra. La representaremos por fi. Se obtiene: f i = ni N Frecuencia absoluta acumulada de un resultado, es el número de veces que se presenta un resultado o todos los anteriores a él. Se representa por Ni i Se obtiene: N i = n1 + n 2 + n3 + ... + ni = ∑ n k k =1 Frecuencia relativa acumulada de un resultado, a la frecuencia absoluta acumulada dividida por el número total de observaciones. La representaremos por Fi Se obtiene: Fi = i i n Ni = f 1 + f 2 + f 3 + ... + f i = ∑ f k = ∑ k N k =1 N k =1 Propiedades de las frecuencias: m La suma de todas las frecuencias absolutas es igual al tamaño de la muestra. Es decir, ∑n i =1 i =N La frecuencia relativa y la acumulada toma valores comprendidos entre cero y uno: 0 ≤ f i ≤ 1 m La suma de todas las frecuencias relativas es igual a uno. Es decir, ∑f i =1 i =1 Confección de una tabla de frecuencias para una variable cuantitativa discreta: Ejemplo Supongamos el experimento aleatorio consistente en anotar las calificaciones de matemáticas de un colectivo de 50 alumnos. Los resultados han sido: 1-6-8-8-2-2-3-4-5-10-3-4-5-6-7-8-9-7-7-6-5-5-5-4-4-5-6-7-10-4-1-2-5-5-6-6-7-4-5-6-5-4-6-7-6-5-4-3-4-5 Variable X = calificaciones de Matemáticas Es una variable cuantitativa discreta, pues sólo toma valores enteros comprendidos entre 1 y 10. Tamaño de la muestra N = 50 Realizamos un recuento de los resultados obtenidos marcando una raya vertical por cada uno de ellos y agrupándolos en grupos de 5 para facilitar el conteo: 6— IIIII IIII ..........9 1— II .....................2 7— IIIII I ..............6 2— III ....................3 8— III ...................3 3— III ....................3 9— I ......................1 4— IIIII IIII ...........9 10— II ...................2 5— IIIII IIIII II ....12 Con las definiciones dadas anteriormente, podemos organizar los datos de nuestro experimento en una tabla de frecuencias de la siguiente manera. 2 TABLA DE FRECUENCIAS xi 1 F.absoluta F.relativa ni fi 2 0,04 F.absta Acumu Ni F.relativa Acum Fi 2 3 4 5 6 7 8 9 10 3 3 9 12 9 6 3 1 2 5 8 17 29 38 44 47 48 0,1 0,16 0,34 0,58 0,76 0,88 0,94 0,96 N 10 = 50 F10 = 1 Totales N = 50 0,06 0,06 0,18 0,24 0,18 0,12 0,06 0,02 0,04 10 ∑n i =1 i N 1 = n1 = 2 F1 = f 1 = 0,04 =1 Representación gráfica (variable discreta) Los resultados del experimento anterior, se podrían ver con mucha mayor claridad si los datos tabulados (de la tabla), estuviesen representados gráficamente. Los principales tipos de representaciones gráficas que con ellos podemos hacer son: a) Diagramas de barras. Colocamos en el eje de abcisas los valores de la variable xi y en el eje de ordenadas los valores de las frecuencias y dibujamos barras de igual anchura cuya altura sea exactamente la frecuencia. Así tenemos b) Polígonos de frecuencias.- Se obtienen si unimos los puntos medios de las bases superiores de las barras en el diagrama anterior: c) Diagramas de sectores.- Se obtienen dividiendo la circunferencia en tantas partes como valores tenga la variable de manera que el área de cada sector obtenido sea proporcional a la respectiva frecuencia. Para ello basta con obtener el ángulo central que ha de ocupar cada sector, lo cual se hace mediante una proporcionalidad directa de la siguiente manera: Si a 360º le corresponde una frecuencia 50, a xº le corresponderá la frecuencia fi 3 De manera que se tiene: Así, por ejemplo para una frecuencia de 12, se obtiene: Luego con ayuda de un semicírculo graduado, se llevan los ángulos obtenidos a la circunferencia. Sale un gráfico parecido al siguiente: d) Pictogramas.- Es como el diagrama de barras donde se sustituyen las mismas por un dibujo de altura proporcional a las frecuencias y que hace más intuitiva la interpretación de los resultados. Así podíamos sustituir las barras por dibujos de libros por ejemplo. Confección de una tabla de frecuencias para una variable cuantitativa continua o agrupada: Cuando en una distribución estadística el número de valores que toma la variable es muy grande (más de 20), conviene elaborar una tabla de frecuencias agrupándolos en intervalos. Para ello: Se localizan los valores extremos. El menor: a y el mayor: b, y se halla su diferencia, que se llama recorrido de la variable: r = b − a Se decide el número de intervalos que se quiere formar, teniendo en cuenta la cantidad de datos que se poseen. El número de intervalos no debe ser inferior a 6 ni superior a 15. Se toma un valor r’ que sea algo superior al valor del recorrido r y que sea múltiplo del número de intervalos, con objeto de que estos tengan una longitud entera. Se forman los intervalos de modo que el extremo inferior del primero sea algo menor que a y el extremo superior del último sea algo superior a b. Es deseable que los extremos de los intervalos no coincidan con ningún valor de los datos. Para ello, puede convenir que dichos extremos tengan valores no enteros. Introducimos nuevos conceptos: Marca de clase: es el punto medio de cada intervalo. Es el valor que representa a todo el intervalo para el cálculo de algunos parámetros. Es decir, las marcas de clase se corresponden con los valores de la variable: x1 , x 2 , x3 ,....xi ,.....x m El intervalo i-ésimo lo denotaremos: [Li −1 , Li ) Podemos pues calcular las marcas de clase como sigue: xi = Li −1 + Li 2 Amplitud del intervalo: es la diferencia entre los dos extremos del intervalo. Los intervalos suelen tener amplitud constante, aunque puede que no sea así. Se tiene: amplitud del i-ésimo intervalo a i = Li − Li −1 NOTA: cuando se elabora una tabla con datos agrupados, se pierde algo de información. A cambio, se gana en claridad y eficacia. El número de intervalos a elegir es un poco arbitrario. Sin embargo dichos intervalos deben cumplir necesariamente unas normas que son: Cubrir todo el recorrido de la variable. Ninguno de sus extremos puede coincidir con los valores de la variable. El extremo final de uno de ellos ha de coincidir con el extremo inicial del siguiente. 4 Tienen que ser intervalos disjuntos. Con ello, se pretende que nunca se dé el caso de haber un mismo valor de la variable en dos intervalos diferentes. Suelen elegirse cerrados por la derecha y abiertos por la izquierda. Aunque al revés también es igualmente válido. Ejemplo: Elaborar una tabla de frecuencias con las estaturas de 40 adolescentes dadas a continuación: 168, 160, 167, 175, 175, 167, 168, 158, 149, 160, 178, 166, 158, 163, 171, 162, 165, 163, 156, 174, 160, 165, 154, 163, 165, 161, 162, 166, 163, 159, 170, 165, 150, 167, 164, 165, 173, 164, 169, 170. El número de valores distintos que hay es grande (mayor que 20) Por eso, lo adecuado es clasificarlos en intervalos. Para ello, procedemos del siguiente modo: Localizamos los valores extremos: ⎧ El menor a = 149⎫ Diferencia ⎨ ⎬ ⎯⎯ ⎯⎯→ r = 178 − 149 = 29 ⎩ El mayor b = 178 ⎭ que es el valor del recorrido Por ser pequeño el número de datos, decidimos que el número de intervalos sea pequeño. Por ejemplo seis. Buscamos un número algo mayor que el recorrido y que sea múltiplo de seis. Por ejemplo r’ = 30. de este modo, cada intervalo tendrá una amplitud igual a 30 =5 6 Formamos los intervalos comenzando por un número algo menor que 149 y de modo que los seis intervalos abarquen la totalidad de los datos. 1º intervalo: 148,5 — 153,5 2º intervalo: 153,5 — 158,5 3º intervalo: 158,5 — 163,5 4º intervalo: 163,5 — 168,5 5º intervalo: 188,5 — 173,5 6º intervalo: 173,5 — 178,5 Repartimos los cuarenta datos en los seis intervalos. Hacemos el recuento: 148,5 — 153,5 II 163,5 — 168,5 IIIII IIIII IIII 153,5 — 158,5 IIII 188,5 — 173,5 IIIII 158,5 — 163,5 IIIII IIIII I 173,5 — 178,5 IIII TABLA DE FRECUENCIAS Intervalos Marca de clase xi ni fi Ni Fi 148,5 — 153,5 151 2 0,05 N 1 = n1 = 2 F1 = f 1 = 0,05 153,5 — 158,5 158,5—163,5 163,5 — 168,5 168,5 — 173,5 173,5 — 178,5 156 161 166 171 176 4 11 14 5 4 0,1 0,275 0,35 0,125 0,1 6 17 31 36 0,15 0,425 0,775 0,9 N 6 = 40 F6 = 1 Totales N = 40 6 ∑f i =1 ii =1 Representaciones gráficas (variable continua) Los principales tipos de representaciones gráficas que podemos hacer son: a) Histograma.- Colocamos en el eje de abscisas los extremos de los intervalos y en el eje de ordenadas los valores de las frecuencias y dibujamos rectángulos unidos de la misma base si los intervalos tienen la misma amplitud y de altura la frecuencia de cada un de ellos. Así tenemos 5 b) Polígonos de frecuencias.- Se obtienen si unimos los puntos medios de las bases superiores de los rectángulos del histograma anterior: c) Diagramas de sectores.- Se obtienen dividiendo la circunferencia en tantas partes como valores tenga la variable de manera que el área de cada sector obtenido sea proporcional a la respectiva frecuencia. Para ello basta con obtener el ángulo central que ha de ocupar cada sector, lo cual se hace mediante una proporcionalidad directa de la siguiente manera: Si a 360º le corresponde una frecuencia 40, a xº le corresponderá la frecuencia fi De manera que se tiene: xi = f i .360 40 Con ayuda de un semicírculo graduado, se llevan los ángulos obtenidos a la circunferencia. Sale un gráfico parecido al siguiente: PARÁMETROS ESTADÍSTICOS Puesto que las representaciones gráficas no siempre consiguen ofrecer una información completa de una serie de datos, es necesario analizar procedimientos numéricos que permitan resumir toda la información del fenómeno en estudio en unos números llamados parámetros estadísticos. Se les exige que tengan ciertas propiedades. Pero no existe ninguno que las verifique todas. No existe un parámetro ideal. Usaremos aquellos que sean “lo más representativo posible” de la situación concreta que estemos estudiando. Su eficacia depende de muchos factores, entre ellos, la naturaleza de la variable en estudio, los datos de que se disponga, etc. Los parámetros estadísticos pueden ser de dos clases: a) Medidas de centralización. Buscan características del centro de la distribución. Las más importantes son la media aritmética, la mediana y la moda. Otras menos utilizadas son media geométrica, media armónica y media ponderada. 6 b) Medidas de posición. Indican, una vez ordenados, cuantos elementos quedan a la izquierda o derecha de uno dado. Son: cuartiles, deciles, centiles o percentiles. c) Medidas de dispersión. Proporcionan una idea sobre la separación de los datos. Son: rango, el recorrido, desviación media, varianza, desviación típica y coeficiente de variación. d) Medidas de forma. Proporcionan una idea de la simetría y apuntamiento de la distribución. Son: coeficiente de simetría y coeficiente de apuntamiento. MEDIDAS DE CENTRALIZACIÓN La media aritmética. Se llama así a la suma de todos los valores observados dividido por el número total de los mismos. Para una tabla de frecuencias en la que a cada valor de la variable xi, le corresponda una frecuencia absoluta ni, la media, que se representa por X se calcula así: m X = ∑ x .n i =1 i N m i ∑ x .n m m ni = ∑ xi . = ∑ xi . f i N i =1 i =1 i X= i i=1 N OBSERVACIÓN: cuando la variable sea continua o agrupada el valor xi será la marca de clase de los diferentes intervalos. Así, para los datos de la tabla de los ejemplos anteriores, calcularíamos la media aritmética de la siguiente manera: - Añadimos una columna nueva en la tabla de frecuencias en la que vamos a calcular xi ni . Calculamos pues, el producto de los valores de la variable por la frecuencia absoluta que le corresponde a cada uno de dichos valores. 10 - En la última fila, la de los totales, calculamos la suma de toda esta nueva columna. ∑x n i =1 - i i El resultado obtenido lo dividimos entre el tamaño de la muestra N. Y el valor obtenido es el valor de la media aritmética. Podríamos hacer los cálculos de forma similar pero con la columna de las frecuencias relativas y en ese caso la suma de todos los elementos de dicha columna sería el valor de la media. Cuando la variable sea continua o agrupada en intervalos, procedemos de forma análoga, pero ahora, las marcas de clases son las que hacen el papel de los distintos valores de la variable: xi Es decir: En el ejemplo de variable discreta tenemos: ni fi xi 1 2 0,04 2 3 0,06 3 3 0,06 4 9 0,18 5 12 0,24 6 9 0,18 7 6 0,12 8 3 0,06 9 1 0,02 10 2 0,04 Totales N = 50 10 ∑n i =1 i =1 xi.ni 2 6 9 36 60 54 42 24 9 20 10 ∑x n i =1 i i xi.fi 0,04 0,12 0,18 0,72 1,2 1,08 0,84 0,48 0,18 0,4 = 262 5,24 7 X = 262 = 5,24 → 5,24 es la nota media de las calificaciones de Matemáticas. 50 En el ejemplo de variable continua tenemos: X = Intervalos Marca de clase xi ni x i .ni fi xi . f i 148,5 — 153,5 153,5 — 158,5 158,5—163,5 163,5 — 168,5 168,5 — 173,5 173,5 — 178,5 Totales 151 156 161 166 171 176 2 4 11 14 5 4 N = 40 302 624 1771 2324 855 704 6580 0,05 0,1 0,275 0,35 0,125 0,1 1 7,55 15,6 44,275 58,1 21,375 17,6 164,5 6580 = 164,5cm. → Es la altura media de los adolescentes 40 OBSERVACIÓN: La media aritmética es una medida única para cada distribución. La moda: Es el valor de la variable que tiene mayor frecuencia absoluta. Su cálculo es diferente según la naturaleza de la variable. Se denota: M 0 Para calcular la moda procedemos de forma diferente, según sea la naturaleza de la variable en estudio. Variable discreta o no agrupada: El cálculo es directo En el ejemplo de variable discreta tenemos: (ver página 3) La moda es Mo=5, pues es a esta nota a la que corresponde la mayor frecuencia absoluta (12) Luego: La nota obtenida más veces es 5 Si a dos o más valores les corresponde la misma frecuencia máxima, la distribución se llama bimodal o multimodal. NOTA: cuando las frecuencias absolutas tienen valores muy similares, la moda no es muy representativa. Variable continua o agrupada: Supongamos que la frecuencia absoluta mayor es, correspondiente al intervalo [Li −1 , Lo ) que recibe el nombre de intervalo modal. La moda se calcula mediante la siguiente fórmula: M o = Li −1 + ni − ni −1 .a (ni − ni −1 ) + (ni − ni +1 ) i Siendo: Li −1 el extremo inferior del intervalo modal. ni −1 la frecuencia absoluta del intervalo anterior al intervalo modal, ni +1 la frecuencia absoluta del intervalo siguiente al intervalo modal ai La amplitud del intervalo modal. 8 En el ejemplo de variable continua tenemos: (ver página 8) Intervalo modal: [L3 , L4 ) = [163'5,168'5) Extremo inferior del intervalo modal: L3 = 163,5 Frecuencia absoluta del intervalo modal: n 4 = 14 Frecuencia absoluta del intervalo anterior al modal: n3 = 11 Frecuencia absoluta del intervalo siguiente al modal: n5 = 5 Amplitud del intervalo modal: a 4 = 5 Por tanto la Moda es: M o = L3 + n4 − n3 14 − 11 .a4 = 163,5 + .5 = 164, 75cm. ( n4 − n3 ) − (n4 − n5 ) (14 − 11) + (14 − 5) La altura más frecuente entre los adolescentes es 164,75 cm. La mediana. Es un valor de la variable, que denotamos por Me tal que al menos la mitad de los valores de la distribución es inferior o igual a Me, y al menos la mitad es superior o igual a Me. Es decir, es el valor de la variable que divide la distribución en dos partes iguales. Para calcular la mediana, los datos tienen que presentarse en una tabla ordenados de menor a mayor Para calcular la mediana procedemos de forma diferente, según sea la naturaleza de la variable en estudio. Variable discreta o no agrupada: Distinguimos dos casos según tengamos número par o impar de observaciones. Cuando el número de observaciones, N, es impar, la mediana es el que ocupa el lugar central. Cuando el número de observaciones, N, es par. Para calcular la mediana, se toma la media aritmética de los dos valores centrales. En el ejemplo de la variable discreta o no agrupada: - Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. - Dado que hay N = 50 valores y se trata de un número par, los dos valores centrales son los que ocupan las posiciones 25 y 26. Mirando la tabla de frecuencias absolutas acumuladas vemos que ambos corresponden 5+5 = 5 → este al valor 5 (ya que menores o iguales que él hay 29), por tanto, M e = 2 resultado significa: Que la calificación de 5 puntos es el valor que divide la distribución en dos partes iguales, es decir, hay el mismo número de alumnos con notas inferiores a 5, que alumnos con notas superiores a 5 puntos. O lo que es lo mismo, el 50% de loa alumnos tienen menos de un 5 de puntuación y el otro 50% tiene una calificación de más de 5 puntos. - 9 Variable continua o agrupada: Para su calculo procedemos del siguiente modo: - Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. Es decir, los intervalos seguirán orden creciente. N - Calculamos 2 - En la columna de la tabla de frecuencias, correspondiente a la frecuencia absoluta N acumulada, identificamos el PRIMER valor que sea mayor o igual que . Vamos a 2 suponer que este valor se alcanza en el intervalo i-ésimo. - Identificamos los siguientes elementos: N N i → valor de la primera frecuencia absoluta acumulada que supera o es igual 2 N i −1 → valor de la frecuencia absoluta acumulada del intervalo inmediatamente anterior a [Li −1 , Li ) [Li −1 , Li ) → Intervalo correspondiente a N i . En él se encuentra el valor de la mediana. Se denomina intervalo mediano. ai → amplitud del intervalo [Li −1 , Li ) ni → frecuencia absoluta del intervalo [Li −1 , Li ) Aplicamos la siguiente fórmula: N − N i −1 2 M e = Li −1 + .ai ni y obtenemos el valor de la mediana. En el ejemplo de la variable continua o agrupada: Intervalos Marca de clase ni Ni 2 4 11 14 5 4 N = 40 2 6 17 31 36 40 xi 148,5 — 153,5 153,5 — 158,5 158,5—163,5 163,5 — 168,5 168,5 — 173,5 173,5 — 178,5 Totales 151 156 161 166 171 176 Los intervalos siguen orden creciente. N 40 = = 20 2 2 El PRIMER valor de N i mayor o igual que N es N 4 = 31 2 Identificamos los siguientes elementos: N 4 = 31 N i −1 = 17 [L3 , L4 ) = [163'5,168'5) → Intervalo mediano. 10 a 4 = 5 amplitud del intervalo n 4 = 14 Frecuencia absoluta del intervalo mediano. Aplicamos la siguiente fórmula: N 40 − N3 − 17 M e = L3 + 2 .a 4 = 163,5 + 2 .5 = 164,57 n4 14 Por tanto, 164,57cm. Es el valor de la altura que divide la distribución en dos partes iguales. Es decir, el 50% de los adolescentes mide menos de 164,57cm. Y el otro 50% de ellos mide más de 164,57cm. OBSERVACIÓN: La mediana es una medida única para cada distribución. Ejercicios: 1, 2, 3, 4 MEDIDAS DE POSICIÓN Para calcular las medidas de posición debemos tener SIEMPRE los datos ordenados. Los ordenaremos de menor a mayor. En caso contrario podríamos, razonando de forma similar, obtener las expresiones de estas medidas. Los cuartiles. Son los valores de la variable que dejan a su izquierda un porcentaje determinado de la población. Son TRES valores de la variable que dividen la distribución en CUATRO partes iguales. Es decir, entre cada dos cuartiles consecutivos se encuentra el 25% de las observaciones. Es decir, el 25% de los individuos de la población. Notación: Qk con k = 1,2,3 . Son pues 3 valores: Q1 , Q2 , Q3 Los deciles. Son los valores de la variable que dejan a su izquierda un porcentaje determinado de la población. Son NUEVE valores de la variable que dividen la distribución en DIEZ partes iguales. Es decir, entre cada dos deciles consecutivos se encuentra un 10% de los individuos de la población. Se representan por Dh k = 1,2,3...9 Por ejemplo: D3 → es el valor de la variable que deja a su izquierda el 30% de los individuos de la población. Es decir, un 30% de la población tendrá valor de la variable menor o igual que C 32 . Los centiles o percentiles. Son los valores de la variable que dejan a su izquierda un porcentaje determinado de la población. Son NOVENTA Y NUEVE valores de la variable que dividen la distribución en CIEN partes iguales. Es decir, entre cada dos percentiles consecutivos se encuentra un 1% de los individuos de la población. Se representan por C h k = 1,2,3...99 Por ejemplo: C 32 → es el valor de la variable que deja a su izquierda el 32% de los individuos de la población. Es decir, un 32% de la población tendrá valor de la variable menor o igual que. Cálculo de los cuartiles, deciles y percentiles: - Su cálculo se obtiene de forma similar a la mediana. Para poder calcular estas medidas de posición, los datos tienen que presentarse en una tabla ordenados de menor a mayor. Procedemos de forma diferente, según sea la naturaleza de la variable en estudio. 11 Variable discreta o no agrupada: o o Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. Calculamos, según el caso: Para el cálculo de un cuartil: Qk ; k = 1,2,3 → Para el cálculo de un decil: Dk ; k = 1,2,3,..9 → k .N k = 1,2,3 4 k .N k = 1,2,3,...9 10 Para el cálculo de un percentil: C k ; k = 1,2,3,...99 → o o k .N k = 1,2,3,...99 100 Miramos la tabla de frecuencias absolutas acumuladas y observamos el primer valor de dichas frecuencias que sea superior o igual al valor obtenido en el punto anterior. El valor de la variable correspondiente a dicha frecuencia es el cuartil, decil o percentil buscado. En el ejemplo de la variable discreta o no agrupada: - Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. TABLA DE FRECUENCIAS xi 1 2 3 4 5 6 7 8 9 10 ni 2 3 3 9 12 9 6 3 1 2 Totales N = 50 Calculamos los tres cuartiles: Qk ; k = 1,2,3 → Ni 2 5 8 17 29 38 44 47 48 50 k .N k = 1,2,3 4 PRIMER CUARTIL: Q1 1. Calculamos: 1.N 50 = = 12,5 4 4 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 12,5 F4 = 17 → x4 = 4 3. Q1 = x 4 = 4 → El 25% de los alumnos han tenido una nota menor o igual que 4. SEGUNDO CUARTIL: Q2 = M e 1. Calculamos: 2.N 100 = = 25 4 4 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 25 F5 = 29 → x5 = 5 3. Q2 = M e = x5 = 5 → El 50% de los alumnos han tenido una nota menor o igual que 5. 12 TERCER CUARTIL: Q3 1. Calculamos: 3.N 150 = = 37,5 4 4 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 12,5 F6 = 38 → x6 = 6 3. Q3 = x6 = 6 Comentario: el 75% de los alumnos han tenido una nota menor o igual que 6 Calculamos los deciles: Dk ; k = 1,2,3,..9 → k .N k = 1,2,3,...9 10 Por ejemplo: D3 ; D5 y D8 TERCER DECIL: D3 1. Calculamos: 3.N 150 = = 15 10 10 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 15 F4 = 17 → x4 = 4 3. D3 = x 4 = 4 → El 30% de los alumnos han tenido una nota menor o igual a 4. QUINTO DECIL: D5 1. Calculamos: 5.N 250 = = 25 10 10 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 25 F5 = 29 → x5 = 5 3. D5 = M e = x5 = 5 El 50% de los alumnos han tenido una nota menor o igual que 5. OCTAVO DECIL: D8 1. Calculamos: 8 N 400 = = 40 10 10 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 40 F9. = 48 → x9 = 9 3. D8 = x7 = 7 El 80% de los alumnos han tenido una nota menor o igual a 7. Calculamos los percentiles: C k k = 1,2,3,...99 → k .N k = 1,2,3,...99 100 Por ejemplo: C 30 ; C 50 ; C 75 ; C 95 PERCENTIL: C 30 1. Calculamos: 30.N = 15 100 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 15 F4 = 17 → x4 = 4 3. C 30 = x 4 = 4 El 30% de los alumnos han tenido una nota menor o igual a 4. 13 PERCENTIL: C 50 1. Calculamos: 50.N = 25 100 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 25 F5 = 29 → x5 = 5 3. C 50 = M e = x5 = 5 El 50% de los alumnos han tenido una nota menor o igual que 5. PERCENTIL: C 75 1. Calculamos: 75 N = 37,5 100 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 37,5 F6 = 38 → x6 = 6 3. C 75 = x6 = 6 El 75% de los alumnos han tenido una nota menor o igual a 6. PERCENTIL: C 95 1. Calculamos: 95 N = 47,5 100 2. Buscamos la primera frecuencia absoluta acumulada mayor o igual a 47,5 F9 = 48 → x9 = 9 3. C 95 = x9 = 9 El 95% de los alumnos han tenido una nota menor o igual a 9. Variable continua o agrupada: Para su calculo procedemos del siguiente modo: • • Los valores de la variable están recogidos en la tabla ordenados de menor a mayor valor. Es decir, los intervalos seguirán orden creciente. Calculamos, según el caso: Para el cálculo de un cuartil: Qk ; k = 1,2,3 → k .N k = 1,2,3 4 Para el cálculo de un decil: Dk ; k = 1,2,3,..9 → k .N k = 1,2,3,...9 10 Para el cálculo de un percentil: C k ; k = 1,2,3,...99 → k .N k = 1,2,3,...99 100 • En la columna de la tabla de frecuencias, correspondiente a la frecuencia absoluta acumulada, identificamos el PRIMER valor que sea mayor o igual que el resultado obtenido en el apartado anterior. Vamos a suponer que este valor se alcanza en el intervalo i-ésimo. Identificamos los siguientes elementos: - N i → Valor de la primera frecuencia absoluta acumulada que supera o es igual k .N k .N k .N o o 4 10 100 según estemos calculando cuartil, decil o percentil. - N i −1 → valor de la frecuencia absoluta acumulada del intervalo inmediatamente anterior a [Li −1 , Li ) 14 [Li −1 , Li ) → Intervalo correspondiente a - N i . En él se encuentra el valor del cuartil, decil o percentil buscado. - ai → amplitud del intervalo [Li −1 , Li ) - ni → frecuencia absoluta del intervalo [Li −1 , Li ) • Aplicamos la siguiente fórmula y obtenemos el valor del parámetro buscado: k .N − N i −1 Para el cálculo de un cuartil: Qk = Li −1 + 4 .ai para k = 1,2,3 ni k .N − N i −1 10 .ai para k = 1,2,3,...9 Para el cálculo de un decil: Dk = Li −1 + ni k .N − N i −1 100 .ai para k = 1,2,...99 Para el cálculo de un percentil: C k = Li −1 + ni En el ejemplo de la variable continua o agrupada: Vamos a calcular, por ejemplo, Q1 ; D5 ; C 90 Marca de clase Intervalos xi ni 148,5 — 153,5 151 2 153,5 — 158,5 158,5—163,5 163,5 — 168,5 168,5 — 173,5 173,5 — 178,5 156 161 166 171 176 4 11 14 5 4 Totales • • Ni 2 6 17 31 36 40 N = 40 Los intervalos siguen orden creciente. Calculamos: 1.N 40 = = 10 4 4 5.N 200 = = 20 Para el cálculo de un decil: D5 → 10 10 90.N Para el cálculo de un percentil: C 90 → = 36 100 Para el cálculo de un cuartil: Q1 → • El PRIMER valor de N i mayor o igual que: Q1 1.N = 10 es N 3 = 17 4 D5 C 90 5. N = 20 es N 4 = 31 10 70.N = 28 es N 5 = 36 100 15 Identificamos los siguientes elementos: D5 Q1 N 3 = 17 N2 = 6 [L2 , L3 ) = [158'5,163'5) a3 = 5 amplitud intervalo n3 = 11 frec abs intervalo • C 90 N 5 = 36 N 4 = 31 [L4 , L5 ) = [168'5,173'5) a5 = 5 amplitud intervalo n5 = 5 frec abs intervalo N 4 = 31 N 3 = 17 [L3 , L4 ) = [163'5,168'5) a 4 = 5 amplitud intervalo n 4 = 14 frec abs intervalo Aplicamos la siguiente fórmula: Para el cálculo del cuartil: 1.N − N2 10 − 6 4 .5 = 160,32 Q1 = L2 + .a3 = 158,5 + 11 n3 Por tanto, el 25% de los adolescentes miden menos de 160,32 cm. También podemos concluir que, el 75% de los adolescentes miden más de 160,32 cm. Para el cálculo del decil: 5.N − N3 20 − 17 10 D5 = L3 + .5 = 164,57 = M e .a 4 = 163,5 + n4 14 Por tanto, el 50% de los adolescentes mide menos de 164,57cm. Para el cálculo del percentil: C 90 90.40 − N4 36 − 31 = L4 + 100 .5 = 173,5 .a5 = 168,5 + n5 5 Por tanto, el 90 % de los adolescentes mide menos de 173,5 cm. O lo que es lo mismo, el 10% de los adolescentes mide más de 173,5cm. OBSERVACIÓN: La mediana coincide con el segundo cuartil, el quinto decil y, el percentil número 50. Es decir, M e = Q2 = D5 = C 50 . Además: Q1 = C 25 ; Q3 = C 75 ; D1 = C10 ; D1 = C10 ; D2 = C 20 ; ... D8 = C80 ; D9 = C 90 Ejercicios: 8 MEDIDAS DE DISPERSIÓN Varianza. Es la media de los cuadrados de las desviaciones respecto a la media. Se representa por S 2 . ( Cuadrado de las desviaciones respecto de la media: → xi − X ∑ (x m Varianza: S = 2 i =1 ) i N 2 m 2 − X ni ) m ( ) = ∑ xi − X . f i = i =1 2 ∑x i =1 2 i N .ni m − X = ∑ xi2 f i − X = X 2 − X 2 2 2 i =1 16 OBSERVACIONES: Tiene la ventaja de que las desviaciones grandes afectan más al resultado. No tiene las mismas unidades que la variable en estudio. Es siempre positiva. Es nula cuando todos los valores coinciden con la media. ∑(x − X ) m S = 2 i i =1 2 ni N Desviación típica. Es la raíz cuadrada de la varianza. ∑ (x m S= S = 2 i =1 ) m 2 I − X .ni ∑ (x m = N i =1 ) 2 i − X . fi = ∑x i =1 2 i .ni N −X 2 ∑x = 2 i . fi − X 2 = X2 −X 2 OBSERVACIONES: Es la unidad de dispersión más utilizada. S = S2 Las unidades son las mismas que las de la muestra. Es siempre positiva. Cuanto mayor sea la desviación típica, más alejados están los valores de la distribución de su valor medio. Haciendo las cálculos en la tabla del ejemplo anterior, se pueden calcular las medidas de dispersión de la variable discreta de la siguiente manera: xi ni (x − X ) (x − X ) (x − X ) .n xi.ni 1 2 3 4 5 6 7 8 9 10 Totales 2 2 i 2 2 3 6 3 9 9 36 12 60 9 54 6 42 3 24 1 9 2 20 N = 50 262 i -4,24 -3,24 -2,24 -1,24 -0,24 0,76 1,76 2,76 3,76 4,76 17,9776 10,4976 5,0176 1,5376 0,0576 0,5776 3,0976 7,6176 14,1376 22,6576 i 35,9552 31,4928 15,0528 13,8384 0,6912 5,1984 18,5856 22,8528 14,1376 45,3152 203,12 xi2 x i2 , ni 1 4 9 16 25 36 49 64 81 100 2 12 27 144 300 324 294 192 81 200 1576 i m ∑ x .n i i 262 = 5, 24 N 50 VARIANZA.: la obtenemos de dos formas. MEDIA: X= ∑ (x m S2 = i =1 i=1 ) = 2 i − X ni N = 203,12 = 4,0624 50 m S = 2 ∑x i =1 2 i N .ni 2 −X = 1576 2 − (5,24 ) = 31,52 − 27,4576 = 4,0624 50 DESVIACIÓN TÍPICA: S = S 2 = 4,0624 = 2,01553 17 Variable continua Para variables agrupadas. el procedimiento es el mismo, salvo que la marca de clase hace el papel de valor de la variable: xi Intervalos Marca de clase xi ni xi .ni 148,5 — 153,5 153,5 — 158,5 158,5—163,5 163,5 — 168,5 168,5 — 173,5 173,5 — 178,5 151 156 161 166 171 176 2 4 11 14 5 4 302 624 1771 2324 855 704 6580 (x − X ) (x − X ) (x − X ) .n Totales N = 40 i -13,5 -8,5 -3,5 1,5 6,5 11,5 i 182,25 72,25 12,25 2,25 42,25 132,25 xi2 x i2 , ni 22801 24336 25921 27556 29241 30976 45602 97344 285131 385784 146205 123904 1083970 2 2 i 364,5 289 134,75 31,5 211,25 529 1560 i m ∑ x .n i i ∑( x − X ) ni 6580 = 164,5 cm Es la altura media de los adolescentes N 40 VARIANZA.: (σ 2 ) la obtenemos de dos formas. MEDIA: X= i=1 m S2 = i =1 i N 2 = m = 1560 = 39 40 S2 = ∑ x .n 2 i i =1 N i 2 −X = 1083970 2 − (1, 645 ) = 39 40 DESVIACIÓN TÍPICA: (σ ) S = S 2 = 39 = 19,5 Ejercicios: 5, 6, 7, 9 NOTACIÓN: En Estadística es muy útil la notación con subíndices. El símbolo xi (léase "x sub i") denota cualquiera de los m valores x1, x2, x3, ....., xm que una variable x puede tomar. La letra "i" en xi puede representar cualquiera de los números 1, 2, 3, ... m y se llama subíndice. m También es muy frecuente el uso del símbolo de sumatorio ∑x i =1 i Para indicar la suma de todas las xi desde i = 1 hasta i = m, es decir, por definición: m ∑x i =1 i = x1 + x 2 + x3 + ... + xi + ...x m En general, identificamos a las variables estadísticas por una letra mayúscula: X y entonces, xi representa el valor o modalidad i-ésimo de la variable estadística X. En general diremos que los valores o modalidades de la variable X son; x1 , x 2 , x3 ,....xi ,.....x m o bien xi desde i = 1.....m 18 EJERCICIO RESUELTO Para las quince notas siguientes: 2, 5, 6, 1, 7, 6, 9, 6, 8, 5, 5, 4, 7, 7, 1 a) Construye una tabla de frecuencias y halla la media aritmética. b) Calcula la varianza (σ 2 ) y la desviación típica (σ ) . c) Halla el número de alumnos comprendidos en el intervalo (x − σ , x + σ ) . d) Dibuja un diagrama de barras con frecuencias absolutas e) Dibuja un polígono de frecuencias absolutas. (x − X ) (x − X ) (x − X ) .n ni 1 2 4 5 6 7 8 9 xi .ni 2 1 1 3 3 3 1 1 i 2 2 4 15 18 21 8 9 i -4,3 -3,3 -1,3 -0,3 0,7 1,7 2,7 3,7 i 18,49 10,89 1,69 0,09 0,49 2,89 7,29 13,69 x i2 , ni i 36,98 10,89 1,69 0,27 1,47 8,67 7,29 13,69 79 N = 15 xi2 2 2 xi 1 4 16 25 36 49 64 81 2 4 16 75 108 147 64 81 497 80,95 m ∑ x .n i i=1 MEDIA: X= N i = 79 = 5,3 15 Es la nota media VARIANZA.: la obtenemos de dos formas. ∑( m S2 = i =1 xi − X ) m 2 .ni N 80,95 = = 5, 4 15 S2 = ∑ x .n i =1 2 i N i 2 −X = 497 2 − ( 5,3) = 5, 4 15 DESVIACIÓN TÍPICA: S = S 2 = 5, 4 = 2, 7 INTERVALO (x − σ , x + σ ) (x − σ , x + σ ) : = ( 5,3 − 2, 7 , 5,3 + 2, 7 ) = (2.6 , 8) 11 alumnos (11/15 = 73%) 19 EJERCICIOS 1) El número de hermanos de los alumnos de una clase es el siguiente: 010032140011201 120112130021235 a) Efectúa el recuento. b) Elabora una tabla de frecuencias en las que se incluyan: frecuencia absoluta, absoluta acumulada, relativa y relativa acumulada. c) Dibuja un diagrama de barras con frecuencias absolutas acumuladas y un polígono de frecuencias absolutas. d) Calcula la media, la moda y la mediana. 2) Se ha lanzado un dado 20 veces y se han obtenido los siguientes resultados: 3, 4, 5, 2, 1, 4, 6, 1, 3, 2, 5, 5, 3, 2, 4, 4, 1, 2, 5, 6 a) Construir la tabla de frecuencias. b) Representar los datos con un diagrama de barras y un diagrama de sectores. c) ¿Cuál a sido la puntuación media obtenida?. d) Calcula la moda y la mediana 3) La dirección de tráfico ha recogido la siguiente información relativa al número de multas diarias que sus agentes han impuesto en una autopista. Hallar todos los parámetros de la muestra e interpretarlos. Multas [0,5) [5,10) [10,15) [15,20) 4) Días 6 14 20 10 Se ha pasado un test de 79 preguntas a 600 personas. El número de respuestas correctas se refleja en la siguiente tabla. Calcula la media, la moda y la mediana Aciertos [0,10) [10,20) [20,30) [30,40) [40,50) [50,60) [60,70) [70,80) Personas 40 60 75 90 105 85 80 65 20 5) Peso n [10,12) 4 [12,14) 7 [14,16) 13 [16,18) 10 [18,20] 6 Xi ni F De la distribución de frecuencias absolutas representada en la tabla, calcular: a) La media aritmética y la desviación típica b) ¿Entre qué valores se encuentran los veinte pesos centrales? c) Represente el polígono de frecuencias absolutas acumuladas. 6) 1 2 2 0,04 6 3 4 La tabla siguiente representa las frecuencias absolutas , ni , las frecuencias absolutas acumuladas, Fi , y las frecuencias relativas fi , correspondientes a la distribución de una variable estadística X i: 0,16 a) Complete los datos que faltan en la tabla y representar la distribución mediante una gráfica adecuada. b) Calcule la media, la moda y la desviación típica de la distribución. 6 5 6 f 30 5 7 0,2 8 7) Puntuaciones Nº de (38,44] 4 (44,50] 12 (50,56] 10 (56,62] 30 (62,68] 20 (68,74] 8 (74,80] 6 Se ha aplicado un test, sobre satisfacción en el trabajo, a 90 empleados de una fábrica, obteniéndose los siguientes resultados: a) Calcule la media y la mediana. b) Calcule el coeficiente de variación. 8) Hallar de los ejercicios 1,2,3 y 4 a) Q1 ; Q2 y Q3 b) D3 ; D5 y D8 c) P33 ; P50 y P80 9) Hallar de los ejercicios 1,2,3 y 4 a) Desviación media b) Varianza c) Desviación típica d) Coeficiente de variación 21