Capítulo 1 Estadística Descriptiva ni 8 7 6 5 4 3 2 1 10 11 12 13 14 15 16 17 18 19 xi El primer paso para el estudio de una o varias características de una población es la recogida de datos. Se realiza esta sobre una muestra de la población, lo suficientemente significativa para que las conclusiones a las que lleguemos, sobre las características objeto de estudio, sean bastante plausibles (tengan una alta fiabilidad). En este capítulo nos ocupamos de la primera, aunque no menos importante, etapa de la descripción de los datos tomados. 1.1 Variables estadísticas Los datos numéricos, o serie estadística, de las observaciones realizadas en una población deben presentarse ordenados y clasificados, siguiendo un criterio prefijado, que dependerá del estudio que estemos realizando. Por lo general, estos se presentan agrupados en una tabla estadística, aunque para una mejor lectura de los mismos se acompañan de una representación gráfica (ver §1.3.1). 1.2 Tipos, muestras Entre las series estadísticas podemos encontrarnos con series temporales, en las que se toman datos referidos a una magnitud en diferentes instantes de un período de tiempo. Ejemplos de series temporales son: las cotizaciones de un valor a lo largo del año; la renta per cápita de una población en un periodo de tiempo; las precipitaciones mensuales de un año; . . . . La tabla estadística de una serie temporal es la de una variable bidimensional, con el tiempo como una de las variables. Por contra, si las observaciones se han efectuado en un momento fijo, nos encontramos ante una serie atemporal, y estas pueden ser espaciales y de frecuencias. Las primeras tratan de comparar los valores de una variable en distintos espacios geográficos, como la tasa de natalidad en las distintas provincias españolas. Las de frecuencias estudian la repetición de un determinado hecho o fenómeno; son las más usuales y a ellas nos dedicaremos. Una variable 1.3 1.3.1 Una variable Diagramas (cualitativas: de barras y de sectores; cuantitativas: de tallos y hojas e histogramas) Las distribuciones de frecuencias tratan de observar, clasificar y ordenar las repeticiones de ciertos valores de una variable. Pueden ser cualitativas o cuantitativas, pudiendo ser las últimas de carácter discreto o continuo, según la variable. Los datos se presentan mediante tablas de frecuencias. En una tabla de frecuencias se llama frecuencia absoluta al número de veces que se repite un valor de la variable; se representa por ni , y significa que el valor xi aparece ni veces. La suma de todas las frecuencias absolutas debe coincidir, obviamente, con el número total de elementos de la muestra, y se denomina tamaño muestral, representado por N . Llamamos frecuencia relativa a la razón entre la frecuencia absoluta y el tamaño muestral, y mide la proporción de cada valor dentro de la muestra. Se representa por fi y, según se ha definido, es: ni fi = . N P Es claro que fi ≤ 1, así como que fi = 1. i Por último, llamamos frecuencias acumuladas, a las sumas de las frecuencias hasta un determinado valor de la variable. Las denotaremos por Ni o Fi según se refieran a frecuencias absolutas o relativas, respectivamente. Para calcularlas se ordenan previamente los valores observados de la variable, y se puede hacer de menor a mayor (frecuencias acumuladas crecientes: Ni ↑, Fi ↑ ), o de mayor a menor (frecuencias acumuladas decrecientes: Ni ↓, Fi ↓). Si los datos observados corresponden a una variable continua, o hay poca repetición de datos, es común agrupar estos en intervalos de clase, de la forma: [Li−1 , Li ) (cerrados por la derecha y abiertos por la izquierda). En estos casos se define, además, la marca de clase, xi , como el punto medio de cada intervalo: Li + Li−1 xi = . 2 De este modo, los valores del intervalo [Li−1 , Li ) pueden tratarse como si fueran todos iguales a su marca de clase, xi , con la consiguiente pérdida de información o error de agrupamiento. Ejemplos Ejemplo 1 Encuestadas cincuenta parejas respecto a su número de hijos, se obtuvieron los siguientes datos: 2; 4; 2; 3; 1; 2; 4; 2; 3; 0; 2; 2; 2; 3; 2; 6; 2; 3; 2; 2; 3; 2; 3; 3; 4; 1; 3; 3; 4; 5; 2; 0; 3; 2; 1; 2; 3 ; 2; 2; 3; 1; 4; 2; 3; 2; 4; 3; 3; 2; 2 . Constrúyase una tabla estadística que represente dichos datos, indicando frecuencias absolutas, relativas y acumuladas relativas crecientes. 8 Estadística Descriptiva Solución: xi ni fi Fi ↑ 0 2 1 4 2 21 3 15 4 6 5 1 1 25 3 25 27 50 42 50 48 50 49 50 6 1 1 25 2 25 21 50 3 10 3 25 1 50 1 50 1 N = 50 Ejemplo 2 Los datos que se dan a personas: 60; 66; 77; 70; 66; 68; 57; 70; 69; 80; 59; 66; 70; 67; 78; 75; 67; 54; 65; 65; 69; 61; 67; 73; 76; 61; 67; 67; 64; 72; 64; 73; continuación corresponden a los pesos en kilogramos de 80 66; 64; 57; 79; 52; 71; 62; 58; 75; 81; 67; 67; 65; 62; 68; 71; 69; 64; 63; 68; 71; 69; 67; 59; 58; 68; 71; 69; 66; 72; 68; 70; 67; 83; 76; 66; 74; 56; 61; 62; 61; 65; 62; 63; 63; 74; 63; 66. (a) Obténgase una distribución de datos en intervalos de amplitud 5, empezando en [50, 55). (b) Calcúlese el porcentaje de personas de peso menor que 65 Kg. (c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg pero menor que 85? Solución: (a) Como queremos efectuar una distribución de datos agrupados, debemos obtener primero los intervalos correspondientes, quedando la siguiente tabla, donde hemos añadido una columna correspondiente a la marca de clase: [Li−1 , Li ] xi ni Ni ↑ fi Fi ↑ [50, 55) 52.5 2 2 [55, 60) 57.5 7 9 [60, 65) 62.5 17 26 [65, 70) 67.5 30 56 [70, 75) 72.5 14 70 [75, 80) 77.5 7 77 1 40 9 80 13 40 7 10 7 8 77 80 [80, 85) 82.5 3 80 1 40 7 80 17 80 3 8 7 40 7 80 3 80 N = 80 9 1 Una variable (b) Observando la columna de frecuencias acumuladas (absolutas), se deduce que existen N3 = 26 individuos cuyo peso es menor que 65 Kg, que, en términos de porcentajes corresponden a: F3 · 100 = 13 · 100 = 32.5 % . 40 (c) El número de individuos con peso comprendido entre 70 y 85 Kg es: n5 + n6 + n7 = 14 + 7 + 3 = 24 , equivalentemente: N7 − N4 = 80 − 56 = 24 . Representaciones gráficas Puede resultar laboriosa la “lectura” de una tabla estadística. Para facilitar esta tarea se suele acompañar de una gráfica, que proporciona una visión rápida del aspecto que se estudia. Estas representaciones gráficas deben tomarse como una ayuda a la interpretación, y las conclusiones han de obtenerse de la tabla. Presentamos, mediante ejemplos, las representaciones gráficas más usuales. Ejemplo 3 (Diagrama de barras) Se utiliza para distribuciones con poca variedad de datos. Se colocan sobre un eje horizontal los valores de la variable y sobre cada uno una barra cuya altura sea igual a su frecuencia absoluta. Las escalas de los ejes horizontal y vertical se pueden tomar distintas, con el objetivo de que el diagrama quede proporcionado. Las temperaturas medias registradas en el mes de mayo de 2002 en Madrid, en grados centígrados, están dadas por la siguiente tabla: Temperatura Núm. de días 13 1 14 1 15 2 16 3 17 6 18 8 19 4 20 3 21 2 22 1 La representación gráfica es el siguiente diagrama de barras: ni 8 7 6 5 4 3 2 1 13 14 15 16 17 18 19 20 21 22 xi Ejemplo 4 (Histograma) Si hemos agrupado los datos en intervalos, utilizamos un histograma de frecuencias. Se colocan los intervalos que definen las clases sobre un eje horizontal, y sobre cada uno de ellos se coloca un rectángulo cuya área sea igual a la frecuencia absoluta. Así, la altura del rectángulo sobre un intervalo [Li−1 , Li ), de amplitud ai = Li − Li−1 , con frecuencia absoluta ni será: hi = 10 ni . ai Estadística Descriptiva Cuando todos los intervalos son de la misma amplitud, es más cómodo colocar como alturas las frecuencias absolutas, ni . En este caso las áreas no coincidirán con las frecuencias, pero serán proporcionales, y el aspecto de la gráfica será el mismo. El histograma de frecuencias del ejemplo 2 sería: 30 25 20 15 10 5 50 55 60 65 70 75 80 85 Ejemplo 5 (Polígono de frecuencias) Consiste en unir con una línea poligonal: – los extremos superiores consecutivos de las barras en un diagrama de barras – o los puntos medios consecutivos de los lados superiores de los rectángulos de un histograma. Los polígonos de frecuencias se pueden utilizar también para representar las frecuencias acumuladas, absolutas o relativas, crecientes o decrecientes. En los casos anteriores quedarían los siguientes polígonos de frecuencias: ni 30 8 7 6 5 4 3 2 1 25 20 15 10 5 13 14 15 16 17 18 19 20 21 22 xi 50 55 60 65 70 75 80 85 Nota: Se acostumbra a prolongar la poligonal hasta el eje horizontal. Para ello tomamos valores a ambos lados de los datos observados con frecuencia cero. Para no modificar el aspecto visual, los nuevos puntos del eje horizontal se toman a una distancia igual a la mitad del intervalo adyacente. Haciéndolo, así, en el caso de un histograma, el área bajo la poligonal coincide con la del histograma. Ejemplo 6 (Diagrama de sectores) Si la variable que estamos considerando es cualitativa, se suele usar este tipo de diagramas. Se divide un círculo en sectores, uno por cada atributo observado, cuyas áreas respectivas sean proporcionales a las frecuencias. 11 Una variable Clasificada una muestra de 100 personas según su grupo sanguíneo, obtuvimos los siguientes datos: Grupo sanguíneo Núm. de personas A 42 B 12 El siguiente sería un diagrama de sectores para los datos de esta muestra: AB 5 O 41 Aunque podemos adaptar un diagrama de barras para la misma: 40 30 A O 20 B 10 AB 0 A B AB O Ejemplo 7 (Diagramas de tallos y hojas) Para variables cuantitativas continuas, los diagramas de tallos y hojas constituyen una sencilla representación. El procedimiento es como sigue: 1. Se redondean los datos a un número conveniente de cifras significativas. 2. Se colocan en una tabla de dos columnas separadas por una línea vertical, escribiendo: todas las cifras, salvo la última, a la izquierda (forman el tallo); la última cifra a la derecha (forma la hoja). 3. Cada tallo define una clase y se escribe sólo una vez. El número de hojas representa la frecuencia de dicha clase. Representemos por un diagrama de tallos y hojas, los siguientes datos, expresados en cm.: 11.357; 12.542; 11.384; 12.431; 14.212; 15.213; 13.300; 11.300; 17.206; 12.710; 13.455; 16.143; 12.162; 12.721; 13.420; 14.698. Primero los redondeamos a tres cifras significativas, expresándolos en mm.: 114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161; 122; 127; 134; 147. Nos quedaría el siguiente diagrama de tallos y hojas: 11 12 13 14 15 16 17 443 54727 354 27 2 1 2 y los propios datos nos dan una idea visual de la zona con mayor frecuencia de observaciones. Es fácil, a partir del diagrama de tallos y hojas, construir la tabla de frecuencias: 12 Estadística Descriptiva [Li−1 , Li ] xi ni Ni ↑ fi Fi ↑ [110, 120) 115 3 3 [120, 130) 125 5 8 [130, 140) 135 3 11 [140, 150) 145 2 13 [150, 160) 155 1 14 [160, 170) 165 1 15 3 16 1 2 11 16 13 16 7 8 15 16 [170, 180) 175 1 16 3 16 5 16 3 16 1 8 1 16 1 16 1 16 1 N = 16 1.4 Medidas numéricas El objeto de todo estudio estadístico es obtener información cuantitativa sobre alguna característica de una población, lo que obligaría a manejar una gran cantidad de datos. Para simplificar el estudio se utilizan ciertas medidas que tratan de darnos la información precisa sobre la característica estudiada a partir de la tabla. Distinguimos entre estas las medidas de centralización y las medidas de dispersión. 1.4.1 Medidas de centralización Su pretensión es dar una idea del valor central, alrededor del cual se reparten los valores de la muestra. Definimos las más habituales e interesantes. Definición 1.4.1. La media muestral se define como: n n X 1 X x̄ = n i xi = f i xi . N i=1 i=1 Definición 1.4.2. La idea de la mediana muestral es la siguiente: Es el valor de la muestra que deja a izquierda y derecha el mismo número de observaciones (una vez ordenadas). Para hallar la mediana muestral hemos de fijarnos en la columna de frecuencias absolutas acumuladas crecientes, Ni ↑. Si el número de observaciones, N , es impar, digamos N = 2k + 1 = k + 1 + k, la mediana es el valor central, es decir, xi tal que su índice i es el primero que cumple k < Ni ↑. Si el número de observaciones es par, digamos N = 2k, se toma como mediana el punto medio de los dos valores centrales. Para variables continuas con los datos agrupados, lo más que se puede hallar es el intervalo mediana; es decir la clase que contiene a la mediana. Definición 1.4.3. La moda de una muestra de una variable estadística discreta es el valor que aparece más veces repetido. 13 Medidas numéricas Esta última medida no tiene mucho interés como medida de centralización, por varios motivos: no tiene sentido para variables continuas al tener que agrupar; puede no ser un valor central; puede haber más de una moda, incluso estar en los extremos; . . . . 1.4.2 Medidas de dispersión Para complementar la información de las medidas de centralización se definen las medidas de dispersión. Es evidente que las primeras son insuficientes como muestra el siguiente ejemplo: • • en el que ambas muestras tienen iguales tanto la media como la mediana muestrales. Las medidas de dispersión diferenciarán estas muestras al medir la “separación” de los datos. Definición 1.4.4. La varianza muestral se define como: n 1 X Vx = ni (xi − x̄)2 . N i=1 Se define la desviación típica (o desviación estándar) de la muestra como la raíz cuadrada √ positiva de la varianza muestral: σx = + Vx . Con la desviación típica se mide la dispersión de la muestra en las unidades originales, ya que la varianza nos da la media de los cuadrados de las desviaciones a la media muestral. Es cómodo utilizar la siguiente fórmula en el cálculo de la varianza: n n X ¢ 1 ¡X Vx = ni x2i − x̄2 = fi x2i − x̄2 . N i=1 i=1 Ejercicio 1 Demostrar la identidad anterior para la varianza. Solución: : Basta desarrollar el cuadrado y sustituir la media muestral: Vx n 1 X = ni (xi − x̄)2 N i=1 n n n 2x̄ X 1 X x̄2 X 2 = n i xi − ni xi + ni N i=1 N i=1 N i=1 = n n 1 X 1 X ni x2i − 2x̄2 + x̄2 = ni x2i − x̄2 N i=1 N i=1 Ejemplo 8 Apliquemos los conceptos anteriores a la siguiente muestra de estaturas de 24 personas, expresadas en metros: 1.62; 1.75; 1.60; 1.41; 1.93; 2.00; 1.71; 1.68; 1.60; 1.67; 1.85; 1.83; 1.57; 1.54; 1.62; 1.93; 1.84; 2.01; 1.70; 1.85; 2.05; 1.66; 1.90; 1.65 . 14 Estadística Descriptiva Redondeando a tres cifras significativas, expresándolos en cm., nos quedaría el siguiente diagrama de tallos y hojas: 14 1 15 74 16 20807265 17 510 18 5345 19 330 20 015 Apuntamos ahora estos datos en una tabla, añadiendo, a las ya vistas, algunas columnas útiles para el cálculo de la media y la varianza: xi ni Ni ↑ n i xi x2i ni x2i 141 154 157 160 162 165 166 167 168 170 171 175 183 184 185 190 193 200 201 205 1 1 1 2 2 1 1 1 1 1 1 1 1 1 2 1 2 1 1 1 1 2 3 5 7 8 9 10 11 12 13 14 15 16 18 19 21 22 23 24 141 154 157 320 324 165 166 167 168 170 171 175 183 184 379 190 386 200 201 205 19881 23716 24649 25600 26244 27225 27556 27889 28224 28900 29241 30625 33489 33856 34225 36100 37249 40000 40401 42025 19881 23716 24649 51200 52488 27225 27556 27889 28224 28900 29241 30625 33489 33856 68450 36100 74498 40000 40401 42025 Así para calcular la media muestral sumaremos las entradas de la cuarta columna (con cabecera ni xi ) y dividiremos por N = 24: 4197 ≈ 175 cm. x̄ = 24 La mediana muestral, al haber 24 datos, será el valor medio entre el valor en lugar 12 y el 13: mediana muestral = 170 + 171 = 170.5 . 2 Para la varianza, sumamos las entradas de la sexta columna (ni x2i ), dividimos por N = 24, y restamos el cuadrado de la media: 740413 Vx = − 1752 ≈ 30851 − 30625 = 226 . 24 15 Medidas numéricas La desviación estándar será σx ≈ 15. Al haber poca repetición de datos la tabla ha quedado bastante grande, con lo que hemos tenido que realizar muchos cálculos. Vamos a ver cómo, al agrupar los datos en intervalos, los cálculos se simplifican, pero, a cambio, perdemos en precisión. Supongamos que los datos los agrupamos en intervalos de amplitud 10, empezando en [140, 150). Obtendríamos la siguiente tabla de frecuencias: [Li−1 , Li ] xi ni Ni ↑ n i xi x2i ni x2i [140, 150) [150, 160) [160, 170) [170, 180) [180, 190) [190, 200) [200, 210) 145 155 165 175 185 195 205 1 2 8 3 4 3 3 1 3 11 14 18 21 24 145 310 1320 525 740 585 615 21025 24025 27225 30625 34225 38025 42025 21025 48050 217800 91875 136900 114075 126075 4240 530 = ≈ 176.7. 24 3 El intervalo mediana: [170, 180). 755800 5302 94475 280900 283425 − 280900 2525 La varianza muestral: Vx = − = − = = ≈ 280.6 3 9 9 9 r 24 √9 2525 2525 50.25 La desviación típica: σx = = ≈ = 16.75. 9 3 3 Para comparar ambos estudios, mostramos los respectivos diagramas de barras e histograma de frecuencias (absolutas al tener intervalos de igual amplitud): La media muestral sería: x̄ = ni 3 ni 2 1 xi 140 150 160 170 180 190 200 210 8 7 6 5 4 3 2 1 140 150 160 170 180 190 200 210 x̄ ≈ 175 mediana muestral = 170.5 Vx ≈ 226 σx ≈ 15 x̄ ≈ 176.7 intervalo mediana [170, 180) Vx ≈ 280.6 σx ≈ 16.75 16 xi Estadística Descriptiva 1.4.3 Cuartiles y diagramas de cajas Una medida elemental de dispersión, una vez ordenados los datos, es el rango o recorrido, R, que es la diferencia entre el mayor y el menor de los datos: R = xn − x1 . Siguiendo la idea de la definición de la mediana, introducimos los cuartiles. La mediana separa en dos mitades el conjunto de observaciones. Los 3 cuartiles, Q1 , Q2 y Q3 , lo hacen en 4 partes con el “mismo” número de elementos. Así, los cuartiles, Q1 , Q2 y Q3 son tales que: – el 25 % de los datos están a la izquierda del primer cuartil, Q1 , y el 75 % a su derecha; – el 50 % de los datos están a la izquierda del segundo cuartil, Q2 , y el 50 % a su derecha (es decir Q2 = mediana ); – el 75 % de los datos están a la izquierda del tercer cuartil, Q3 , y el 25 % a su derecha. Igual que ocurría con la mediana, hemos de considerar distintos casos según el tamaño muestral sea o no divisible por 4: N = 4k, N = 4k + 1, N = 4k + 2 ó N = 4k + 3. Las únicas novedades son el primer y el tercer cuartiles. A partir de estas dos cantidades se define el rango intercuartílico, RI, que es una medida de dispersión definida por: rango intercuartílico RI = Q3 − Q1 . La misma idea seguida para definir los cuartiles nos llevaría a la definición de los 99 percentiles, P1 , . . . , P99 . En general el percentil de orden k será el menor valor que supera al k por ciento de los datos. 1.4.4 Diagramas de cajas. Datos atípicos El diagrama de caja es un gráfico basado en los cuartiles que contiene además información sobre la simetría de la distribución y nos permitirá definir el concepto de dato atípico. El siguiente diagrama muestra la construcción del diagrama de caja de una muestra dada. Se han de calcular los cuartiles, Q1 , mediana y Q3 , así como el rango intercuartílico RI = Q3 − Q1 . ◦ • .¾ . . barrera exterior . . . . . . . . . • • •• 3 RI barrera interior . . . . .¾ . . . .¾ . . . . . . . . . . . RI . .¾ . -.. . . . . . .¾ . -. . . . . . . . . . 3 RI -.. 1.5 RI Q1 med. Q3 17 barrera interior 1.5 RI . . . . -. . . . ◦◦ -.. . . . . . . . . . . barrera exterior Medidas numéricas Los segmentos dibujados a ambos lados de la caja, denominados “bigotes”, unen cada lado con los datos más extremos que aparecen dentro de las barreras interiores. Llamamos datos atípicos a las observaciones que están fuera de las barreras interiores, es decir, a más de 1.5 veces el rango intercuartílico del correspondiente cuartil. Si además están a más de 3 veces el rango intercuartílico (fuera de las barreras exteriores), se denominan datos atípicos extremos. En el gráfico anterior hemos representado con el símbolo ◦ los datos atípicos extremos, y con • los datos atípicos no extremos. Este tipo de observaciones atípicas requiere una atención particular: bien porque responden a errores en la medida o en el tratamiento de datos; bien porque contienen información relevante sobre el comportamiento de la variable. 1.4.5 Comparación de media y mediana: robustez Un rasgo que diferencia a media y mediana es su comportamiento frente a datos atípicos. Supongamos dada la siguiente muestra de datos: 5.3; 2.8; 3.4; 7.2; 1.7; 6.2; 9.3; 3.2; 5.9 ; que tiene media 5 y mediana 5.3. Si introducimos un dato más que sea un valor atípico extremo, por ejemplo 83, la muestra quedaría con la misma mediana, pero la media cambia drásticamente a 12.8. La resistencia o estabilidad de la mediana frente a la existencia de datos atípicos es un fenómeno que recibe el nombre de robustez. Todos los estadísticos basados en el orden –mediana, cuartiles, percentiles, . . . – tienen esta misma propiedad, y se dice que son robustas. Las medidas que se basan en la suma –como la media y la desviación típica– son más sensibles a los datos atípicos y son, por tanto, poco robustas. Esta sensibilidad de la media a las observaciones atípicas explica la posición relativa de la mediana y media en distribuciones asimétricas, como muestran las siguientes figuras: Simétrica x̄ med. Asimétrica a la dcha. med. x̄ Asimétrica a la izqda. x̄ med. Los datos atípicos a la derecha (izquierda) del diagrama de caja, atraen a la media, desplazándola hacia la derecha (izquierda), creando los distintos tipos de asimetría. Conclusión: La media y la desviación típica deben utilizarse para resumir distribuciones homogéneas (simétricas y sin datos atípicos). En otros casos, es preferible utilizar la mediana y el rango intercuartílico. 18 Estadística Descriptiva Ejemplo 9 Las ventas de zapatos de caballero en una zapatería, distribuidas por tallas, han sido, durante cierto mes, las siguientes: Talla 37 Núm. de pares 3 38 4 39 55 40 234 41 366 42 229 43 57 44 6 45 2 El número total de zapatos vendidos en ese mes es N = 956. Para calcular los cuartiles vemos que: 25 % de 956 = 239 de manera que: Q1 = 40 , Q2 = 41 , Q3 = 42 , y el rango intercuartílico es: RI = 2 . Las barreras interiores del diagrama de caja estarían en 37 y 45, de manera que no tenemos datos atípicos, y los bigotes tienen la misma longitud, pues existen los datos 37 y 45 en la muestra. Además, la distribución de datos de la caja es simétrica respecto a la mediana: Tabla de frecuencias: xi 37 38 39 40 41 42 43 44 45 ni 3 4 55 234 366 229 57 6 2 Ni ↑ 3 7 62 296 662 891 948 954 956 Ni ↓ 956 953 949 894 660 294 65 8 2 n i xi 111 152 2145 9360 15006 9618 2451 264 90 x2i 1369 1444 1521 1600 1681 1764 1849 1936 2025 ni x2i 4107 5776 83655 374400 615246 403956 105393 11616 4050 Cálculos: 39197 ≈ 41 956 1608199 − x̄2 ≈ 1.131 Vx = p 956 σx = Vx ≈ 1.06 moda = 41 . x̄ = El dueño de la zapatería decide tomar esta muestra como representativa de su venta de zapatos. Así, a la vista de estos resultados, si X es la variable “talla de zapato vendido”, decide que X ∼ N (41 ; 1.06), de manera que: X − 41 ∼ N (0 ; 1) . 1.06 19 Medidas numéricas Ejemplo 10 La clasificación de 100 familias por el número de hijos es: Núm. de hijos Núm. de familias 0 11 1 13 2 20 3 25 4 14 5 10 6 4 7 2 8 1 Vamos a analizar la variable aleatoria X =“número de hijos por familia”. Se tiene: r 280 14 1098 196 549 − 392 157 157 8.86 x̄ = = = 2.8 , Vx = − = = ≈ 3.14 , σx = ≈ = 1.77 . 100 5 100 25 50 50 50 5 De los 100 datos el lugar 50 lo ocupa el 3, y el 51 también; luego la mediana es 3: Q2 = 3. Por su parte los otros dos cuartiles son Q1 = 2 y Q3 = 4 (¿por qué?), con lo que tenemos rango intercuartílico: RI = 4 − 2 = 2 y el diagrama de caja queda con un dato atípico, 8, que es no extremo pues no supera la barrera exterior derecha (la vertical en Q3 + 3RI = 4 + 6 = 10). La influencia de este dato atípico no puede ser muy grande, pues aparece en el 1 % de la muestra. De hecho, si lo ignoramos de la muestra quedaría media 2.75. Además la media y la mediana están muy próximas: si redondeamos a enteros coinciden. Bajo estas consideraciones podemos tratar la muestra como casi–simétrica, y así tomaremos una N (2.8; 1.77) como modelo de distribución para la variable X =“número de hijos por familia”. Ejemplo 11 De una encuesta de la población española en el año 1973 sobre presupuestos familiares, se obtuvieron los siguientes datos para la variable G =“gasto mensual por familia” (en miles de ptas.), sobre una muestra de 75 familias: [Li−1 , Li ) [0, 50) [50, 100) [100, 150) [150, 200) [200, 250) [250, 300) [300, 350) [350, 400) [400, 450) [450, 500) [500, 550) [550, 600) [600, 650) [650, 700) [700, 750) [750, 800) [800, 850) [850, 900) [900, 950) ni 1 10 9 12 12 10 3 1 6 5 1 0 2 1 1 0 0 1 0 fi 0.01 0.13 0.12 0.16 0.16 0.13 0.04 0.01 0.08 0.07 0.01 0.00 0.03 0.01 0.01 0.00 0.00 0.01 0.00 Fi ↑ 0.01 0.15 0.27 0.43 0.59 0.72 0.76 0.77 0.85 0.92 0.93 0.93 0.96 0.97 0.99 0.99 0.99 1.00 1.00 El primer intervalo cuartílico es [100, 150), el intervalo mediana, [200, 250), y el tercer cuartil está en el intervalo [300, 350). Tendríamos así un rango intercuartílico 150 < RI ≤ 350 − 100 = 250 . 20 Estadística Descriptiva El diagrama de caja tendría barreras interiores extremas en −275, a la izquierda, y 725 a la derecha. En concreto, vemos de la tabla que el 76 − 15 = 61 % de los datos se encontraría en la caja, un 15 % en el segmento izquierdo, y un 24 % en el segmento derecho, del cual el 1 % corresponde a datos atípicos, que podrían llegar a ser extremos. Vemos, en cualquier caso, que la distribución es asimétrica a la derecha. Si tomamos las marcas de clase como representativas de cada intervalo, podemos calcular la media y la desviación típica de esta muestra, obteniendo: x̄ ≈ 264 miles de pesetas; σx ≈ 170.8 . 1.5 Transformaciones lineales Supongamos que tenemos una muestra de datos x1 , x2 , . . . , xn con media muestral x̄ y desviación típica σx . Puede interesar cambiar la escala en la que nos dieron los datos. ¿Cómo influirá este cambio de escala en x̄ y σx ? En general, un cambio de escala viene dado por y = kx, que es un caso particular de las transformaciones lineales: y = ax + b. Veamos cómo varían los estadísticos media y desviación típica: Siendo: x̄ = n X f i xi ȳ = de donde: ȳ = a x̄ + b ; i=1 Análogamente si: n X tendríamos: fi (a xi + b) = a i=1 Vx = n X n X i=1 f i xi + b n X fi i=1 fi x2i − x̄2 i=1 entonces: Vy = n X fi (a xi + b)2 − (a x̄ + b)2 i=1 = a 2 = a2 = a2 n X i=1 n X fi x2i + 2ab n X f i xi + b i=1 2 n X fi − a2 x̄2 − 2abx̄ − b2 i=1 fi x2i + 2abx̄ + b2 − a2 x̄2 − 2abx̄ − b2 i=1 n X ¡ ¢ fi x2i − x̄2 = a2 Vx ; i=1 por tanto: σy = |a| σx . Ejercicio 2 ¿Cómo influye una transformación lineal sobre los datos de una muestra en sus cuartiles? Definición 1.5.1. (Tipificación) Si x̄ y σx son la media y desviación típica muestrales de una muestra, x1 , . . . , xN , correspondiente a una variable X, la muestra correspondiente a la variable tipificada xi − x̄ X − x̄ , yi = , i = 1, . . . , N , Y = σx σx tiene media muestral ȳ = 0 y desviación típica muestral σy = 1. 21 Dos variables 1.6 Dos variables En ocasiones estudiaremos varias características de una población. Un problema interesante será determinar si existe algún tipo de relación entre ellas. Dedicaremos esta sección a este problema. Como en capítulos anteriores, nos bastará con entender el caso de dos variables aleatorias. Supongamos, pues, que estamos realizando el estudio conjunto de dos variables aleatorias cuantitativas, X e Y . Dispondremos de una muestra de N pares de observaciones: (x1 , y1 ), (x2 , y2 ), . . . , (xN , yN ) ; es decir, para el elemento i–ésimo de la muestra, (xi , yi ), se ha observado que X = xi e Y = yi . Utilizaremos una tabla de doble entrada para la distribución “conjunta”. De ella podemos calcular las distribuciones marginales y, en particular, calcular los estadísticos de cada variable: x̄, medx , modax , Sx , Sx2 , . . . para la muestra marginal de la variable X; y los respectivos para Y . Las representaciones gráficas de la distribución conjunta, se realizan en 3 dimensiones. Como alternativa a estos gráficos se introduce la nube de puntos: Con ella representamos, por ejemplo, los valores observados de X en el eje horizontal, y los de Y en el vertical. Cada punto es una observación del vector (X, Y ). La nube de puntos mostrada a la izquierda se ha realizado a partir de la muestra: Y • •• • • • •••• • • • •••••• • • • • • • • (23, 15) ; (43, 16) ; (42, 25) ; (23, 25) ; (28, 17) ; (29, 22) ; (31, 35) ; X (32, 28) ; (34, 18) ; (36, 32) ; (40, 38) ; (34, 18) ; (36, 23) ; (38, 28) ; (45, 25) ; (65, 26) ; (64, 35) ; (45, 35) ; (50, 27) ; (51, 32) ; (53, 45) ; (54, 38) ; (56, 28) ; (58, 42) ; (65, 48) ; (56, 28) ; (58, 33) ; (60, 38) . El objetivo marcado en esta sección es encontrar una curva sencilla que exprese (de manera resumida) una posible relación entre X e Y . Para ello es fundamental dibujar, primero, la nube de puntos, para decidir si puede existir esta relación. Una medida numérica que recoge esta posible relación es la covarianza muestral que se define como: covx,y N 1 X = (xi − x̄)(yi − ȳ) . N i=1 Para calcularla es más sencillo utilizar la igualdad: covx,y N 1 X = xi yi − x̄ȳ N i=1 que se demuestra fácilmente (ejercicio). La covarianza aparece de manera natural al intentar ajustar una “recta de regresión” a una nube de datos. 22 Estadística Descriptiva 1.6.1 Recta de regresión y correlación Si de la nube de puntos decidimos que puede existir una recta, y = ax + b, que se ajuste a la misma, resumiremos toda la nube con ella. Esta recta trataría de formalizar la idea de que existe una relación lineal entre los valores de X e Y . Definición 1.6.1. La recta de regresión de Y sobre X es la recta y = a + bx que minimiza el error cuadrático medio (en adelante, E.C.M.): N 1 X (yi − a − bxi )2 . E.C.M. = N i=1 Nota: Con la recta de regresión de Y sobre X, se pretende minimizar el E.C.M., en cuya definición se promedian las distancias verticales de cada punto de la muestra a la recta. Esta recta se usará para estimar valores de Y para valores conocidos de X. Podemos, análogamente, calcular la recta de regresión de X sobre Y , que servirá para estimar valores de X para valores conocidos de Y . El desarrollo es el mismo, pero partiendo del error cuadrático medio para las distancias horizontales: N 1 X (xi − c − dyi )2 , N i=1 con x = c + dy. Puesto que los resultados son análogos, para no alargar innecesariamente la sección, nos centraremos en la primera de las rectas: y = a + bx. Como viene siendo costumbre, presentamos una identidad para el cálculo de este nuevo número: µ N ¶ N N N N X X X X 1 X 2 2 2 2 E.C.M. = y + Na + b xi − 2a yi − 2b xi yi + 2ab xi N i=1 i i=1 i=1 i=1 i=1 ¡ ¢ ¡ ¢ 2 ¡ ¢ 2 2 2 = Vy + ȳ + a + Vx + x̄ b + 2x̄ a b − 2ȳ a − 2 covx,y + x̄ȳ b ; aunque en esta ocasión para justificar los cálculos posteriores, que resuelven (calculan) los coeficientes de la recta que minimizan esta cantidad. Diremos que y = a + bx es la recta de regresión de Y sobre X si a y b son tales que: ∂(E.C.M.) = 2 a + 2x̄ b − 2ȳ = 0 ∂a ∂(E.C.M.) = 2(Vx + x̄2 ) b + 2x̄ a − 2(covx,y + x̄ȳ) = 0 . ∂b La solución es inmediata: covx,y covx,y x̄ ; b = Vx Vx aportando, además, esta solución un mínimo de la función E.C.M.. Por tanto, la recta de regresión de Y sobre X es: covx,y y − ȳ = (x − x̄) . Vx a = ȳ − Obsérvese que la recta de regresión pasa por el punto de medias: (x̄, ȳ). 23 Dos variables Justificaremos el uso de la recta de regresión por el valor concreto del E.C.M. cometido: Definición 1.6.2. La varianza residual es el E.C.M. cometido con la recta de regresión de Y sobre X, es decir: ¶2 N µ 1 X covx,y Varianza residual = yi − ȳ − (xi − x̄) N i=1 Vx Desarrollando y agrupando esta última igualdad, podemos reescribirla como: covx,y Varianza residual = Vy (1 − r2 ) , siendo: r = . σx σy Al cociente r se le denomina coeficiente de correlación y nos da una medida de la bondad del ajuste por la recta de regresión. En concreto, r es un número entre −1 y 1, y cuánto más próximo esté a los valores extremos (|r| ≈ 1), más pequeño será el E.C.M. cometido; en otras palabras, mejor será el ajuste. Ejemplo 12 (Frank Anscombe) En la siguiente tabla se presentan tres conjuntos de datos preparados por el estadístico Frank Anscombe para ilustrar los peligros de hacer cálculos sin antes representar los datos: Conjunto de datos A: (10, 8.04); (8, 6.95); (13, 7.58); (9, 8.81); (11, 8.33); (14, 9.96); (6, 7.24); (4, 4.26); (12, 10.84); (7, 4.82); (5, 5.68) . Conjunto de datos B: (10, 9.14); (8, 8.14); (13, 8.74); (9, 8.77); (11, 9.26); (14, 8.10); (6, 6.13); (4, 3.10); (12, 9.13); (7, 7.26); (5, 4.74) . Conjunto de datos C: (8, 6.58); (8, 5.76); (8, 7.71); (8, 8.84); (8, 8.47); (8, 7.04); (8, 5.25); (8, 5.56); (8, 7.91); (8, 6.89); (19, 12.50) . Los cálculos correspondientes sobre cada conjunto aportan los siguientes valores, comunes a los 11 tres conjuntos de datos: 1 X x̄ = 9; σx ≈ 3.16; ȳ ≈ 7.50; σy ≈ 1.94; xi yi = 72.51; 11 i=1 covx,y ≈ 0.5; r ≈ 0.82; Varianza residual = Vy (1 − r2 ) ≈ 1.23 covx,y ≈ 5; Vx y así la recta de regresión de Y sobre X sería, para los tres: y − 7.50 = 0.5(x − 9) ⇐⇒ y = 3 + 0.5x . Las nubes de datos de sendos conjuntos son: • • • ••• • • • • • • Datos A •••••• •• • • • • • • • • Datos B Datos C A la vista de las mismas, tomamos la recta de regresión como buen ajuste sólo para la muestra A. 24 Estadística Descriptiva 1.6.2 Otras dependencias funcionales En ocasiones intentar resumir la nube de puntos por una recta puede que no tenga mucho sentido. Podemos pensar en muchos modelos alternativos al modelo lineal. Vamos a dedicar esta sección a indicar cómo aplicar los resultados del modelo de regresión lineal a otros modelos como el logarítmico y el exponencial. La idea es podernos restringir al modelo lineal mediante una sencilla transformación, fácil de invertir. En general, si disponemos de observaciones (x1 , y1 ), . . . , (xN , yN ) de dos características X e Y de una población, y queremos ajustar un modelo de la forma: y = a + b g(x) a estos datos, podemos definir una nueva variable T = g(X) y hallar la recta de regresión de Y sobre T . Esta correspondería a los datos (t1 , y1 ), . . . , (tN , yN ), donde: tj = a + b g(xj ), para cada j = 1, . . . , N . Una vez obtenida la recta de regresión de Y sobre T , deshacemos el cambio y obtenemos la curva pedida. Ejemplo 13 (Regresión logarítmica) Si la nube de puntos recuerda a la gráfica de la función logaritmo, se ajustará por un modelo de la forma: y = a + b log x (regresión logarítmica) . Para ello definimos T = log(X), hallamos la recta de regresión de Y sobre T , con la muestra conveniente modificada. Si obtenemos, por ejemplo, y = 2 + 3t, diremos que y = 2 + 3 log x es nuestro modelo de regresión logarítmica para la muestra original. Ejemplo 14 (Regresión exponencial) Cuando la nube de puntos recuerde a una gráfica exponencial (y = ex ó y = e−x ), la intentaremos representar mediante un modelo de la forma: y = a ebx (regresión exponencial) . Tomando logaritmos en este modelo tendríamos: log y = log a + bx . Si definimos la variable T = log(Y ), y hallamos la recta de regresión de T sobre X, al deshacer el cambio obtendríamos los datos de la regresión exponencial. Por ejemplo, si obtenemos t = −2 + 3x, la curva pedida sería: y = e−2 e3x ≈ 0.135 e3x . 25 Problemas Problemas 1. Antes de que los hornos microondas se puedan poner a la venta, el fabricante debe asegurarse de que la radiación emitida a través de la puerta se encuentra por debajo de un límite de seguridad. Las cantidades de radiación emitidas por 25 hornos (en mw/cm2 ) con la puerta cerrada son: 15 9 18 10 5 12 8 5 8 10 7 2 1 5 3 5 15 10 15 9 8 18 1 2 11 (a) Calcula la media, la varianza y la desviación típica. (b) Calcula la mediana, los cuartiles y el rango intercuartílico. (c) Dibuja el diagrama de cajas correspondiente a estos datos. 2. Determina razonadamente si las siguientes afirmaciones son verdaderas o falsas: (a) Si añadimos 7 a todos los datos de un conjunto, el primer cuartil aumenta en 7 unidades y el rango intercuartílico no cambia. (b) Si todos los datos de un conjunto se multiplican por -2, la desviación típica se dobla. (c) Si todos los datos de un conjunto se multiplican por 2, la varianza se dobla. (d) Si cambiamos el signo de todos los datos de un conjunto, el coeficiente de asimetría de Fisher también cambia de signo. (e) Al multiplicar por tres todos los datos de un conjunto, el coeficiente de asimetría Fisher no varía. (f) Si el coeficiente de correlación entre dos variables vale -0.8, los valores por debajo del promedio de una variable están asociados con valores por debajo del promedio de la otra. (g) Si para todo i, se cumple yi < xi , el coeficiente de correlación entre x e y es negativo. (h) Al restar una unidad a cada dato de un conjunto, la desviación típica siempre disminuye. (i) Si a un conjunto de datos con media x̄ se le añade un nuevo dato que coincide con x̄, la media no cambia y la desviación típica disminuye. 3. Un estudio sobre el efecto de la temperatura en el rendimiento de un proceso químico proporciona los siguientes resultados: Temperatura (x) Rendimiento (y) -5 -4 -3 1 5 4 -2 -1 0 1 7 10 8 9 2 3 4 13 14 13 5 18 (a) Representa el diagrama de dispersión de los datos anteriores y calcula el coeficiente de correlación entre las dos variables. ¿Se puede admitir que existe una relación lineal aproximada entre ambas, es decir, yi ≈ a + bxi ? (b) Calcula el término independiente y la pendiente de la recta de mínimos cuadrados. (c) ¿Qué rendimiento predecirías para un nuevo proceso realizado a temperatura x = 3.5? 26 Estadística Descriptiva 4. Con el fin de hacer un estudio de aceptación sobre dos modelos de automóviles de reciente fabricación, se han considerado las ventas efectuadas por un concesionario durante los días no festivos del último mes de septiembre, que han sido las siguientes: Mod. A 0 1 2 2 3 3 4 4 Mod. B 2 3 1 2 1 2 0 1 Núm. de días 1 1 3 5 8 4 1 2 Obténganse las distribuciones marginales, dando sus medias y varianzas respectivas. Hállese la covarianza de la distribución bidimensional, dibujar la nube de puntos de la misma. 5. Comparadas las edades de cien madres con la de su primer hijo, se obtuvo la siguiente distribución bidimensional: Edad de la madre Edad del hijo 0–10 10–15 15–20 20–25 25–30 30–40 40–50 20–30 11 30–40 3 18 15 40–50 1 6 12 10 50–60 6 9 60–70 3 6 Hállense la covarianza de la distribución y las varianzas correspondientes, tomando en cada clase su marca de clase central. A partir de esta muestra estúdiese la edad de una madre al nacer su primer hijo. 6. Consultando el fichero de un departamento de pediatría, se obtuvieron los siguientes datos respecto a los pesos y edades de los niños atendidos: Edad (en años) Peso (en kg) 0–5 5–10 10–15 15–20 20–25 0 2 4 1 2 3 2 8 1 9 2 7 8 4 Obténgase la recta de regresión de Y (pesos) sobre X (edades). Con la recta obtenida, decídase cuál es el peso que debe esperarse para un niño de 5 años. 14 1 27 Problemas 7. Hállense y represéntense las rectas de regresión correspondientes a la distribución estadística: xi 1 2 3 3 4 4 5 6 yi 5 6 6 7 7 8 8 9 ni,i 2 6 7 6 7 4 5 3 8. Una distribución estadística de variables X e Y es tal que x̄ = 3.5, ȳ = 4 x̄, y Vx = 3 covx,y . Sabiendo que en una de las observaciones es xi = 5, ¿qué valor debe esperarse para yi en el supuesto de una dependencia lineal entre las variables? 9. Ajústese una función del tipo y = aebx a la siguiente distribución bidimensional: xi yi 1 2.2 1.5 6 2 16 2.5 44.5 3 121 4 895 10. Conocidas la media y varianza muestrales de cada una de las variables asociadas a una distribución bidimensional, x̄ = 3 , Vx = 6 , ȳ = 6 , Vy = 8 , de la que se conoce, además, la recta de regresión de Y sobre X 2x + 3y − 12 = 0 obténgase la recta de regresión de X sobre Y . 11. Dadas dos variables X e Y , la recta de regresión de Y sobre X es y = 1.16x + 10.8 mientras que la de X sobre Y es x = 0.13y − 0.6. Calcula las medias de las variables X e Y y el coeficiente de correlación entre ambas. 12. Calcúlese la recta de regresión, `1 , de Y sobre X para la muestra: (1, 3), (3, 4), (5, 2) . Añadir a la muestra anterior el punto de la recta `1 con coordenada x = 7. Calcular la recta de regresión, `2 , de Y sobre X para la muestra aumentada. Repetir lo mismo añadiendo a la muestra original el punto de `1 con primera coordenada x = −9 (obteniendo una tercera recta `3 ). Dibuja las tres rectas con sus muestras en un mismo gráfico e interpreta el resultado. 28