1 Grado en Estadı́stica y Empresa 2 Grado en Estadı́stica y Empresa 2 2.1 Descripción estadı́stica de una variable Ordenación simple de los datos Consideremos una muestra de tamaño n de una variable X. Esto significa que se consideran n individuos escogidos al azar de la población objeto de estudio y que, para cada uno de ellos se registra el valor de la variable X. Análisis Exploratorio de Datos Temas 2 y 3 Sean x1 , x2 , . . . , xk los k ≤ n diferentes valores de X sobre la muestra. • Si X es cuantitativa o bien categórica ordinal, supondremos que x1 < x2 < . . . < xk . Aurea Grané Dpto. Estadı́stica Universidad Carlos III de Madrid Grado en Estadı́stica y Empresa Sea xi un valor observado de la variable X, i = 1, 2, . . . , k. • La frecuencia absoluta del valor xi , ni , es el número de veces que se ha observado este valor en la muestra. • La frecuencia relativa del valor xi , fi , es la proporción del valor xi en la muestra, es decir, fi = ni /n. Puede expresarse en porcentaje. • La frecuencia absoluta acumulada del valor xi , Ni , es el número de observaciones menores o iguales que xi , es decir, i Ni = j=1 nj . • La frecuencia relativa acumulada del valor xi , Fi , es la proporción de observaciones menores o iguales que xi en la i muestra, es decir, Fi = Ni /n = j=1 fj . También puede expresarse en porcentaje. • Si X es una variable categórica nominal, el orden de valores observados se establece según el criterio del observador. 3 4 Grado en Estadı́stica y Empresa Propiedades de las frecuencias (pizarra) Tabla de frecuencias Permite representar de forma resumida los valores de X en la muestra. xi ni fi Ni Fi x1 n1 f1 N1 F1 x2 .. . n2 .. . f2 .. . N2 .. . F2 .. . xk nk fk Nk = n Fk = 1 Total n 1 Observación 1 Las columnas Ni y Fi no tendrán sentido para variables categóricas nominales. 5 Grado en Estadı́stica y Empresa Se denomina distribución de frecuencias de X al conjunto de valores observados de la variable junto con las frecuencias correspondientes a cada uno de estos valores. Ejemplo 2.1 Se ha medido el grupo sanguı́neo de 40 individuos y se han observado las siguientes frecuencias absolutas para cada categorı́a: 12 para x1 = A, 11 para x2 = B, 8 para x3 = AB y 9 para x4 = O. Distribución de frecuencias absolutas relativas xi ni xi fi x1 n1 x1 f1 x2 .. . n2 .. . x2 .. . f2 .. . xk nk xk fk Total n Total 1 a) ¿De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente. grupo A B AB O Total Análogamente, se obtienen las distribuciones de frecuencias absolutas acumuladas y absolutas relativas. 7 Grado en Estadı́stica y Empresa Ejemplo 2.1 (continuación) grupo A B AB O Total ni 12 11 8 9 40 fi 0.3 0.275 0.2 0.225 1 b) ¿Qué porcentaje de individuos son del grupo A? c) ¿Qué porcentaje de individuos no son del grupo O? d) ¿Cuántos individuos no son del grupo B? 6 Grado en Estadı́stica y Empresa ni 12 11 8 9 40 fi 0.3 0.275 0.2 0.225 1 8 Grado en Estadı́stica y Empresa Ejemplo 2.2 La siguiente tabla muestra la clasificación de 901 individuos según la variable satisfacción en el trabajo xi muy insatisfecho moderamadente insatisfecho moderadamente satisfecho muy satisfecho Total ni 62 108 319 412 901 a) ¿De qué tipo es la variable de estudio? Calcular la tabla de frecuencias correspondiente. 9 Grado en Estadı́stica y Empresa 10 Grado en Estadı́stica y Empresa Ejemplo 2.2 (continuación) xi ni fi Ni Fi muy insatisfecho 62 0.07 62 0.07 moderamadente insatisfecho 108 0.12 170 0.19 moderadamente satisfecho 319 0.35 489 0.54 muy satisfecho 412 0.46 901 1 Total 901 1 Ejemplo 2.3 Se quiere estudiar la eficacia de un nuevo insecticida para plantas de interior. Se seleccionan 50 plantas y se cuenta el número de hojas que han sido atacadas después de haber tratado a la planta con el nuevo producto. Los resultados son: Hojas atacadas 0 1 2 3 4 5 6 8 10 ni 6 10 12 8 5 4 3 1 1 b) ¿Qué porcentaje de individuos están moderadamente satisfechos? a) ¿De qué tipo es la variable de estudio? Construir la tabla de frecuencias correspondiente. c) ¿Cuántos individuos están a lo sumo moderadamente insatisfechos (es decir, a lo sumo, levemente satisfechos)? ¿Qué porcentaje representan? d) ¿Cuántos individuos están por lo menos moderadamente satisfechos? ¿Qué porcentaje representan? 11 Grado en Estadı́stica y Empresa Ejemplo 2.3 (continuación) Hojas atacadas 0 1 2 3 4 5 6 8 10 12 Grado en Estadı́stica y Empresa Ejemplo 2.3 (continuación) ni 6 10 12 8 5 4 3 1 1 fi 0,12 0,20 0,24 0,16 0,10 0,08 0,06 0,02 0,02 Ni 6 16 28 36 41 45 48 49 50 Fi 0,12 0,32 0,56 0,72 0,82 0,90 0,96 0,98 1 Hojas atacadas 0 1 2 3 4 5 6 8 10 ni 6 10 12 8 5 4 3 1 1 fi 0,12 0,20 0,24 0,16 0,10 0,08 0,06 0,02 0,02 Ni 6 16 28 36 41 45 48 49 50 Fi 0,12 0,32 0,56 0,72 0,82 0,90 0,96 0,98 1 b) ¿Qué porcentaje de plantas tienen sólo 3 hojas atacadas? e) ¿Qué porcentaje de plantas tienen entre 3 y 5 hojas atacadas? c) ¿Cuántas plantas tienen como máximo 3 hojas atacadas? f ) ¿Qué porcentaje de plantas tienen al menos 8 hojas atacadas? d) ¿Cuántas plantas tienen como mı́nimo 6 hojas atacadas? g) ¿Qué porcentaje de plantas tienen a lo sumo 2 hojas atacadas? Grado en Estadı́stica y Empresa 13 14 Grado en Estadı́stica y Empresa Tabla de frecuencias con intervalos de clase (ordenación agrupada de los datos) 2.2 Ordenación agrupada de los datos. Si X es continua o bien discreta con muchos valores diferentes, resulta conveniente agrupar la muestra en intervalos, que se denominan intervalos de clase. Para poder calcular las medidas numéricas (que veremos más adelante), se toma como representante del intervalo a su punto medio, que se denomina marca de clase. Intervalo Marca de clase: xi ni fi Ni Fi [l0 , l1 ) x1 = (l0 + l1 )/2 n1 f1 N1 F1 [l1 , l2 ) .. . x2 = (l1 + l2 )/2 .. . n2 .. . f2 .. . N2 .. . F2 .. . [lk−1 , lk ] xk = (lk−1 + lk )/2 nk fk Nk = n Fk = 1 n 1 Total La magnitud Li = li − li−1 se denomina longitud o amplitud del intervalo [li−1 , li ). Grado en Estadı́stica y Empresa 15 Grado en Estadı́stica y Empresa En las tablas de frecuencias con intervalos de clase hay una pérdida de información, puesto que hay valores diferentes que van a parar dentro de un mismo intervalo y, por tanto, serán tratados como iguales. Se have necesario escoger unos intervalos lo suficientemente pequeños, de manera que la información que se pierda sea mı́nima, pero a la vez lo suficientemente grandes, de manera que el número de intervalos no sea desmesuradamente grande y haga incómodo su manejo. Como referencia, tomaremos uno de los siguientes valores aproximados: ⎧ ⎨ √n, si n no es muy grande, Num. intervalos = k ≈ ⎩ 1 + 3.22 log(n), en otro caso. Ejemplo: Si el número de observaciones que tenemos es n = 100, un buen √ criterio es agrupar las observaciones en k = 100 = 10 intervalos. Sin embargo si tenemos n = 1000000 será más razonable elegir √ k = 1 + 3.22 log(106 ) ≈ 20 intervalos, ya que k = 106 = 1000 no es un número cómodo de intervalos para trabajar. 16 17 Grado en Estadı́stica y Empresa Ejemplo 2.4 (continuación) Ejemplo 2.4 En veinte vuelos de Barcelona a Madrid se han contado el número de asientos vacı́os en cada vuelo. Se han agrupado los datos en intervalos de longitud 4. intervalos [0, 4) [4, 8) [8, 12) [12, 16] Total ni 9 5 4 2 asientos vacı́os 0−3 4−7 8 − 11 12 − 16 2.3 xi 2 6 10 14 ni 9 5 4 2 20 fi 0,45 0,25 0,20 0,10 1 Ni 9 14 18 20 Fi 0,45 0,70 0,90 1,00 b) ¿En cuántos vuelos hay menos de 8 asientos vacı́os? ¿Qué porcentaje representan? a) ¿De qué tipo es la variable estudiada? Construir la tabla de frecuencias correspondiente. c) ¿En cuántos vuelos hay como mı́nimo 10 asientos vacı́os? ¿Qué porcentaje representan? 19 Grado en Estadı́stica y Empresa 18 Grado en Estadı́stica y Empresa 20 Grado en Estadı́stica y Empresa Representaciones gráficas Figure 1: Diagrama de barras y polı́gono de frecuencias. Datos del ejemplo 2.3 (X =“número de hojas atacadas por planta” sobre una muestra de n = 50 plantas de interior). polı́gono de frecuencias diagrama de barras 12 10 Figure 2: Diagrama de sectores. Datos del ejemplo 2.1 (X =“grupo sanguı́neo de un individuo” sobre una muestra de n = 40 individuos). 23% 30% A B AB O 8 6 20% 4 2 28% 0 1 2 3 4 5 6 7 8 9 10 21 Grado en Estadı́stica y Empresa Figure 4: Histograma y polı́gono de frecuencias. Datos del ejemplo 2.4 Figure 3: Gráfico de Pareto. Datos del ejemplo 2.2 (X =“satisfacción en el trabajo” sobre una muestra de n = 901 individuos). 900 100% 800 89% 700 78% 600 67% 500 55% 400 44% 300 33% 200 22% 100 11% 0 muy satisfecho mod. satisfecho mod. insatisfecho muy insatisfecho BCN-MAD). 2.5 11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206, 12.710, 13.455, 16.143, 12.162, 12.721, 13.420, 14.698. Datos redondeados y expresados en mm: 114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134, en mm): 344 24577 345 27 2 1 2 ⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭ hojas polı́gono de frecuencias histograma 2 1.5 1 0.5 0 23 Ejemplo 2.5 Los datos siguientes corresponden a ciertas longitudes (en cm). Construir un diagrama de tallo y hojas. Diagrama de tallo y hojas (datos ⎧ 11 ⎪ ⎪ ⎪ ⎪ 12 ⎪ ⎪ ⎪ ⎨ 13 14 tallo ⎪ ⎪ 15 ⎪ ⎪ ⎪ ⎪ 16 ⎪ ⎩ 17 (X =“número de asientos vacı́os” en una muestra de n = 20 vuelos de 0% Grado en Estadı́stica y Empresa 147. 22 Grado en Estadı́stica y Empresa 4 8 12 16 24 Grado en Estadı́stica y Empresa Ejercicio 2.2 Clasificadas las provincias españolas por su número de habitantes en 2001, se obtuvieron los siguientes datos: Num. habitantes de 1 a 100 000 de 100 000 a 250 000 de 250 000 a 500 000 de 500 000 a 750 000 de 750 000 a 1 000 000 de 1 000 000 a 2 000 000 de 2 000 000 a 3 000 000 de 3 000 000 a 4 000 000 de 4 000 000 a 6 000 000 Num. provincias 3 8 13 10 7 8 1 0 2 a) Constuir una tabla estadı́stica con las marcas de clase, las frecuencias absolutas y las frecuencias relativas. 25 Grado en Estadı́stica y Empresa Ejercicio 2.2 (continuación) intervalos xi ni [0, 100000) 50000 3 [100000, 250000) 175000 8 [250000, 500000) 375000 13 [500000, 750000) 600000 10 [750000, 1000000) 875000 7 [1000000, 2000000) 1500000 8 [2000000, 3000000) 2500000 1 [3000000, 4000000) 3500000 0 [4000000, 6000000] 5000000 2 fi 0.058 0.154 0.250 0.192 0.135 0.154 0.019 0 0.038 Ni 3 11 24 34 41 49 50 50 52 Fi 0.058 0.212 0.462 0.654 0.789 0.943 0.962 0.962 1 26 Grado en Estadı́stica y Empresa Ejercicio 2.2 (continuación) Figure 5: Histograma de frecuencias absolutas. Datos del ejercicio 2.2. ni /Li 3 · 10−5 5.3 · 10−5 5.2 · 10−5 4 · 10−5 2.8 · 10−5 0.8 · 10−5 0.1 · 10−5 0 0.1 · 10−5 5 · 10−5 4 · 10−5 3 · 10−5 2 · 10−5 b) ¿Cuántas provincias tienen menos de 500 000 habitantes? ¿Qué porcentaje representan? 10−5 c) ¿Cuántas provincias tienen entre 800 000 y 1 300 000 habitantes? 0 d) Construir el histograma de frecuencias absolutas. Grado en Estadı́stica y Empresa 2.4 Caracterı́sticas numéricas de una distribución univariante Supondremos que: x1 < x2 < . . . < xk son los k valores de X en la muestra (ordenación simple de los datos), o bien x1 < x2 < . . . < xk son las marcas de clase de k intervalos construidos sobre la muestra de X (ordenación agrupada de los datos). Las caracterı́sticas numéricas de una distribución de se clasifican en: • Medidas de tendencia central 27 2 3 4 millones de habitantes 5 6 28 Grado en Estadı́stica y Empresa 2.4.1 Medidas de tendencia central Dan información sobre el “centro” de la distribución. Las más utilizadas son: La media aritmética ,x, indica el punto medio de la muestra. Se calcula: k 1 x= x i ni . n i=1 Proposición 2.1 La suma de las diferencias de la variable con respecto de la media es nula, es decir, k • Medidas de posición i=1 • Medidas de dispersión (o de variabilidad) • Medidas de forma (asimetrı́a y curtosis) 1 (Demostración) (xi − x) ni = 0. 29 Grado en Estadı́stica y Empresa Proposición 2.2 (Linealidad de la media) Si Y = a + b X, a, b ∈ R, b = 0, entonces la correspondiente media de Y es La media artimética ponderada, xP : y = a + b x, En determinadas distribuciones estadı́sticas no todos los valores de la variable tienen la misma influencia, y, por ello, a cada valor se le asigna un coeficiente diferenciador, llamado peso. es decir el operador media es una función lineal. (Demostración) Si x1 , x2 , . . . , xk son los distintos valores X en la muestra y p1 , p2 , . . . , pk son los pesos correspondientes, entonces: k i=1 xi pi xP = k i=1 pi Inconvenientes de la media. 1. Es muy sensible a valores extremos de la variable: todas las observaciones intervienen en el cálculo de la media, de manera que la presencia de una observación extrema hará que la media se desplace en esa dirección. Observación 2 La media aritmética x es un caso particular de media ponderada, donde los pesos pi = ni . 2. No es recomendable utilizarla en distribuciones con fuerte asimetrı́a. 31 Grado en Estadı́stica y Empresa Ejemplo 2.6 Un inversor tiene ahorros repartidos en 3 depósitos con 2000, 5000 y 10000 euros, respectivamente. si el primero le rinde un 5% anual, el segundo un 4% anual y el tercero un 2% anual, ¿cuál es el tipo de interés medio que recibe? La variable de estudio es el interés anual. Los valores que toma esta variable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El interés medio es xP = 5 · 2000 + 4 · 5000 + 2 · 10000 50000 = = 2.94%. 2000 + 5000 + 10000 17000 30 Grado en Estadı́stica y Empresa 32 Grado en Estadı́stica y Empresa Ejercicio 2.3 Una empresa está interesada en seleccionar entre dos candidatos para un puesto de trabajo. Las valoraciones que han obtenido estos candidatos en las entrevistas y pruebas a que han sido sometidos son las siguientes: Aspecto experiencia conocimientos psicontécnico Candidato A 8 6 4 Candidato B 7 7 5 Si la empresa da una importancia del 60% a la experiencia, del 25% a los conocimientos y del 15% a la habilidad psicotécnica, ¿cuál de los dos candidatos va a escoger? Calculamos las medias ponderadas para cada candidato, con pesos 60, 25 y 15, respectivamente para cada categorı́a. El candidato que obtenga una media poderada mayor será el candidato escogido. xP (A) = 8 · 60 + 6 · 25 + 4 · 15 = 6.9, 100 xP (B) = 7 · 60 + 7 · 25 + 5 · 15 = 6.7 100 33 Grado en Estadı́stica y Empresa La media geométrica, xG , proporciona una medida precisa de un cambio porcentual medio en una serie de números. Se calcula como: La mediana, Me, es aquel valor que divide a la muestra en dos partes iguales, de manera que el 50% de las observaciones quedan por debajo de la mediana y el otro 50% por encima de ella. xG = (xn1 1 xn2 2 . . . xnk k )1/n Cálculo de la mediana: Se recomienda su uso cuando se tienen porcentajes, tasas o números ı́ndice; es decir, cuando una variable presenta variaciones acumulativas. a) Ordenación simple de los datos: ⎧ ⎨ 1 (x n + x n ), (2) ( 2 +1) 2 Me = ⎩ x n+1 , ( ) Observación 3 Tomando logaritmos: log(xG ) = 1 1 log(xn1 1 xn2 2 . . . xnk k ) = n n k i=1 log(xni i ) = 1 n k 34 Grado en Estadı́stica y Empresa 2 ni log(xi ). si n es impar, donde x(j) indica el dato que ocupa la posición j-ésima en la muestra ordenada. i=1 35 Grado en Estadı́stica y Empresa si n es par, Grado en Estadı́stica y Empresa Propiedades e inconvenientes de la mediana: b) Ordenación agrupada de los datos: En la tabla de frecuencias identificamos al intervalo mediano como aquél que contiene al individuo que ocupa la posición n/2, es decir, x(n/2) . Para ello nos ayudaremos de la columna de las frecuencias absolutas acumuladas (la de las Ni ). Si [li−1 , li ) es el intervalo mediano, entonces: (n/2 − Ni−1 ) . M e = li−1 + (li − li−1 ) · Ni − Ni−1 Li 1. La mediana no se ve alterada por la presencia de valores extremos, puesto que no depende de los valores que toma la variable, sino del orden de los mismos. Por ello es adecuado su uso en distribuciones asimétricas. 2. El mayor defecto de la mediana es que tiene unas propiedades matemáticas complicadas, lo que hace que sea muy difı́cil de utilizar en Inferencia Estadı́stica. Ejemplo 2.7 Calcular la mediana de los conjuntos de datos siguientes: a) 18, 18, 19, 17, 23, 20, 21, 18 b) 20, 21, 18, 19, 18, 17, 18 36 37 Grado en Estadı́stica y Empresa Observación 4 La moda puede ser no única, es decir, en una misma muestra puede haber dos valores con la misma frecuencia (o dos intervalos que con la misma altura en el histograma de frecuencias). En ambos casos, la distribución tendrá dos modas y se denominará bimodal. La moda, Mo, se define de forma distinta según si los datos se encuentran o no agrupados en intervalos de clase. En la ordenación simple de los datos, la moda se define como el valor que presenta una mayor frecuencia absoluta (o relativa). En la ordenación agrupada de los datos, la moda se sitúa dentro del intervalo modal, que es el intervalo con mayor altura en el histograma de frecuencias absolutas (o relativas), es decir, con mayor ni /Li (o fi /Li ). (Deberemos prestar especial atención si los intervalos no tienen la misma amplitud). Si la distribución tiene tres modas, se denomina trimodal. Aunque, a veces, cuando hay más de dos modas se dice que la distribución no tiene moda. Observación 5 Esta medida de tendencia central es la menos utilizada para variables cuantitativas, pero en cambio, es una de las pocas que pueden calcularse para variables cualitativas. Si [li−1 , li ) es el intervalo modal, entonces: M o = li−1 + Li ni+1 /Li+1 . ni−1 /Li−1 + ni+1 /Li+1 Grado en Estadı́stica y Empresa Ejemplo 2.8 Con los datos del ejercicio 2.2 (habitantes de las provincias españolas) calcular la media aritmética, la mediana y la moda. intervalos xi ni fi Ni Fi ni /Li [0, 100000) 50000 3 0.058 3 0.058 3 · 10−5 [100000, 250000) 175000 8 0.154 11 0.212 5.3 · 10−5 [250000, 500000) 375000 13 0.250 24 0.462 5.2 · 10−5 [500000, 750000) 600000 10 0.192 34 0.654 4 · 10−5 [750000, 1000000) 875000 7 0.135 41 0.789 2.8 · 10−5 [1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5 [2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5 [3000000, 4000000) 3500000 0 0 50 0.962 0 [4000000, 6000000] 5000000 2 0.038 52 1 0.1 · 10−5 total 52 1 k 1 43050000 k = 9 intervalos, x = x i ni = = 827884.62, n i=1 52 38 Grado en Estadı́stica y Empresa Ejemplo 2.8 Con los datos del ejemplo 2.7, calcular la moda. 39 40 Grado en Estadı́stica y Empresa Ejemplo 2.8 (continuación) intervalos [0, 100000) [100000, 250000) [250000, 500000) [500000, 750000) [750000, 1000000) [1000000, 2000000) [2000000, 3000000) [3000000, 4000000) [4000000, 6000000] total xi 50000 175000 375000 600000 875000 1500000 2500000 3500000 5000000 ni 3 8 13 10 7 8 1 0 2 52 fi 0.058 0.154 0.250 0.192 0.135 0.154 0.019 0 0.038 1 n/2 = 26 ⇒ M e = 500000 + 250000 · Ni 3 11 24 34 41 49 50 50 52 Fi 0.058 0.212 0.462 0.654 0.789 0.943 0.962 0.962 1 ni /Li 3 · 10−5 5.3 · 10−5 5.2 · 10−5 4 · 10−5 2.8 · 10−5 0.8 · 10−5 0.1 · 10−5 0 0.1 · 10−5 26 − 24 = 550000, 34 − 24 esto significa que el 50% de las provincias españolas tienen menos de 550000 habitantes. 41 Grado en Estadı́stica y Empresa Ejemplo 2.8 (continuación) intervalos xi [0, 100000) 50000 [100000, 250000) 175000 [250000, 500000) 375000 [500000, 750000) 600000 [750000, 1000000) 875000 [1000000, 2000000) 1500000 [2000000, 3000000) 2500000 [3000000, 4000000) 3500000 [4000000, 6000000] 5000000 total M o = 100000 + 150000 ni 3 8 13 10 7 8 1 0 2 52 fi 0.058 0.154 0.250 0.192 0.135 0.154 0.019 0 0.038 1 Ni 3 11 24 34 41 49 50 50 52 Fi 0.058 0.212 0.462 0.654 0.789 0.943 0.962 0.962 1 2.4.2 ni /Li 3 · 10−5 5.3 · 10−5 5.2 · 10−5 4 · 10−5 2.8 · 10−5 0.8 · 10−5 0.1 · 10−5 0 0.1 · 10−5 Las más utilizadas son: Cuartiles: Se denomina cuartil k-ésimo (k = 1, 2, 3) al número Qk que deja k cuartas partes de la muestra por debajo de él y 4 − k cuartes partes por encima. Percentiles: Se denomina percentil k-ésimo (k = 1, 2, . . . , 99) al número Pk que deja k centésimas partes de la muestra por debajo de él y 100 − k centésimas partes por encima. 5.2 · 10 = 195121.95, + 5.2 · 10−5 10−5 esto significa que el número de habitantes más frecuente en las provincias españolas es de 195122 hab. aproximadamente. Grado en Estadı́stica y Empresa Medidas de posición El objectivo común de estas medidas es dividir el total de observaciones en p partes iguales e informar del porcentaje de datos que hay por encima y por debajo de los valores que separan cada una de las partes. −5 3· 42 Grado en Estadı́stica y Empresa Observación 6 P25 = Q1 , 43 P50 = Q2 = M e, P75 = Q3 . 44 Grado en Estadı́stica y Empresa Ejercicio 2.4 (continuación) Para calcular los cuartiles y percentiles utilizaremos el mismo algoritmo de cálculo que para la mediana, pero en lugar de buscar n/2 habrá que buscar k n/4 para Qk y k n/100 para Pk . Ejercicio 2.4 Con los datos del ejercicio 2.2 (habitantes de las provincias españolas) calcular los cuartiles primero y tercero y el percentil 80. Para calcular Q1 buscamos en qué intervalo está el individuo que ocupa la posición n/4 = 52/4 = 13. Para calcular Q3 buscamos en qué intervalo está el individuo que ocupa la posición 3n/4 = 39. Para calcular P80 buscamos en qué intervalo está el individuo que ocupa la posición 80n/100 = 41.6 ≈ 42. intervalos [0, 100000) [100000, 250000) [250000, 500000) [500000, 750000) [750000, 1000000) [1000000, 2000000) [2000000, 3000000) [3000000, 4000000) [4000000, 6000000] total xi 50000 175000 375000 600000 875000 1500000 2500000 3500000 5000000 ni 3 8 13 10 7 8 1 0 2 52 fi 0.058 0.154 0.250 0.192 0.135 0.154 0.019 0 0.038 1 Ni 3 11 24 34 41 49 50 50 52 Fi 0.058 0.212 0.462 0.654 0.789 0.943 0.962 0.962 1 ni /Li 3 · 10−5 5.3 · 10−5 5.2 · 10−5 4 · 10−5 2.8 · 10−5 0.8 · 10−5 0.1 · 10−5 0 0.1 · 10−5 45 Grado en Estadı́stica y Empresa 46 Grado en Estadı́stica y Empresa Comparación entre media y mediana: robustez. Diagrama de caja Un rasgo que diferencia a media y mediana es su comportamiento frente a datos atı́picos. Es un diagrama muy útil que permite hacerse una idea de la dispersión y la simetrı́a de la distribución. Sea RI = Q3 − Q1 . Consideremos las observaciones siguientes 1.7, 2.8, 3.2, 3.4, 5.3, 5.8, 6.2, 7.2, 8.3, 9.3, 1.5 RI 3 RI RI 1.5 RI 3 RI que dan lugar a una media de x = 5.3 y una mediana de M e = 5.6. Supongamos que, por un error de transcripción, la observación 8.3 se registra como 83, es decir que el conjunto de datos ordenado queda como 1.7, 2.8, 3.2, 3.4, 5.3, 5.8, 6.2, 7.2, 9.3, 83. + Q1 M e Esta nueva colección de observaciones contiene un dato atı́pico extremo, que es 83. A pesar de ello, la mediana sigue siendo M e = 5.6, mientras que la media ahora vale x = 12.8. Q3 47 Grado en Estadı́stica y Empresa 48 Grado en Estadı́stica y Empresa Media y mediana frente a datos atı́picos simetrı́a x Me asimetrı́a a la derecha 450 asimetrı́a a la izquierda 300 300 250 250 200 200 150 150 100 100 50 50 400 350 300 250 Me x 200 150 100 50 0 −3 La resistencia o estabilidad de la mediana frente a la existencia de datos −2 −1 0 1 x = Me 2 3 0 −0.2 0 0.2 0.4 0.6 x > Me 0.8 1 1.2 0 −0.2 0 0.2 0.4 0.6 0.8 x < Me atı́picos es un fenómeno que, en general, recibe el nombre de robustez. robustas. Por otra parte, cantidades basadas en la suma, como la media o En una distribución simétrica, media y mediana coinciden. En una distribución asimétrica a la derecha, la media (al ser sensible a los datos atı́picos a la derecha del histograma) es mayor que la mediana. la desviación tı́pica, se ven más afectadas por las observaciones En una distribución asimétrica a la izquierda, la media (al ser sensible a los atı́picas y son, por tanto, poco robustas. datos atı́picos a la izquierda del histograma) es menor que la mediana. Las medidas basadas en el orden, como la mediana, los cuartiles, el rango intercuartı́lico o la MEDA, gozan de esta propiedad y se dice que son 1 1.2 49 Grado en Estadı́stica y Empresa 2.4.3 50 Grado en Estadı́stica y Empresa El rango intercuartı́lico: Medidas de dispersión o de variabilidad RI = Q3 − Q1 . Informan sobre la concentración de los datos respecto de alguna de las caracterı́sticas de tendencia central. Las más utilizadas son: Indica la dispersión del 50% central de los datos de la muestra (amplitud de la caja del box-plot). Se recomienda su uso cuando hay presencia de observaciones atı́picas (outliers). El rango (también llamado recorrido o amplitud) es la diferencia entre el valor máximo y el valor mı́nimo, es decir, R = xmax − xmin . La desviación media: k Inconvenientes del rango: Dm = 1. No utiliza todas las observaciones (sólo dos de ellas). Mide cuánto se alejan (en promedio) los valores de X de la media aritmética. La desviación media guarda las mismas dimensiones que las observaciones, pero no suele utilizarse en inferencia estadı́stica puesto que el valor absoluto tiene malas propiedades matemáticas. 2. Puede quedar muy afectado por alguna observación extrema. 3. Al aumentar el número de observaciones en la muestra, el rango nunca disminuye (o se queda igual o aumenta). 51 Grado en Estadı́stica y Empresa 1 |xi − x| ni . n i=1 52 Grado en Estadı́stica y Empresa La varianza muestral: s2n = k 1 (xi − x)2 ni . n i=1 Mide cuánto se aleja (en promedio) cada valor de X de la media aritmética, pero en unidades cuadráticas. A veces, se utiliza la fórmula equivalente: s2n k 1 2 = x ni −x2 = x2 − x2 n i=1 i x2 La varianza no guarda la misma dimensión que las observaciones, pero sı́ su raı́z cuadrada, sn = s2n , que se denomina desviación tı́pica muestral (o desviación estándar). Proposición 2.3 Si Y = a X + b, con a, b ∈ R, a > 0, entonces: s2n (Y ) = a2 s2n (X). (Demostración) Este resultado dice que si las observaciones de la muestra sufren un traslado de una cantidad b, la dispersión de la muestra no aumenta. Mientras que si estas mismas observaciones sufren un cambio de escala de factor a entonces la dispersión de la muestra alrededor de la media será menor si a < 1 o bien será mayor si a > 1. 53 Grado en Estadı́stica y Empresa Propiedades e inconvenientes de la varianza y la desviación estándar: 54 Grado en Estadı́stica y Empresa La cuasivarianza muestral (o varianza muestral corregida) se utiliza mucho en inferencia estadı́stica y se define como: 1. La desviación estándar tiene la propiedad de que el intervalo s2n−1 = (x − 2 sn , x + 2 sn ) contiene por lo menos al 75% de la muestra (teorema de Chebychev). Más aún, si el tamaño muestral es grande y puede suponerse que la muestra sigue una distribución normal, el intervalo puede contener al 95% de la muestra. La fórmula siguiente permite relacionar la varianza y la cuasivarianza: n s2n = (n − 1) s2n−1 . Análogamente, se define la cuasidesviación tı́pica muestral como la raı́z cuadrada de la varianza muestral corregida, es decir, 2. Ambas son sensibles a cambios de escala en las observaciones (cambios en las unidades de medida). sn−1 = 3. No es recomendable el uso de ellas cuando tampoco lo sea el de la media como medida de tendencia central. Por ejemplo, si hay datos atı́picos. Grado en Estadı́stica y Empresa La mediana de las desviaciones absolutas, MEDA, es una medida de la variabilidad de la muestra alrededor de la mediana y se define como: M EDA = M e (|x1 − M e(X)|, |x2 − M e(X)|, . . . , |xk − M e(X)|) . Es una medida robusta. Ejemplo 2.9 Calcular la MEDA para el conjunto de datos 17, 18, 18, 18, 19, 20, 21. Indicaciones: Primero obtener la mediana de la muestra. Después obtener las diferencias (en valor absoluto) entre las observaciones y la mediana. Finalmente, la MEDA será la mediana de estas diferencias. k 1 (xi − x)2 ni . n − 1 i=1 s2n−1 . Observación 7 El programa Statgraphics llama variance y standard deviation a la cuasivarianza y cuasidesviación, respectivamente. 55 56 Grado en Estadı́stica y Empresa El coeficiente de variación de Pearson permite comparar las variabilidades de dos o más conjuntos de datos, ya sean variables distintas medidas sobre el mismo conjunto de individuos o bien, una sola variable medida sobre distintos conjuntos de individuos. Se define como: CV = sn /x. Observación 8 No es invariante frente a traslaciones (cambios de origen). Es decir, si Y = X + b, b > 0 entonces CV (Y ) < CV (X): CV (Y ) = sn (X) sn (X) sn (Y ) = < = CV (X). y x+b x Observación 9 Es invariante frente a cambios de escala. Si Y = a X, a > 0, entonces, CV (Y ) = CV (X). CV (Y ) = a sn (X) sn (Y ) = = CV (X). y ax 57 Grado en Estadı́stica y Empresa Ejercicio 2.8 (continuación) Ejercicio 2.8 De los ocho empleados de una oficina, se han considerado las distribuciones de sus edades y sus años de antigüedad en la empresa: Edad 40 22 19 30 62 32 45 51 Antigüedad 15 3 1 8 39 13 17 24 Edad 40 22 19 30 62 32 45 51 Antigüedad 15 3 1 8 39 13 17 24 Llamamos X a la variable “edad” e Y a la variable “antigüedad”. R(X) = 62 − 19 = 43, Calcular lor rangos de estas dos distribuciones. ¿Cuál de las dos tiene mayor grado de dispresión? R(Y ) = 39 − 1 = 38. ¿Podemos afirmar que X tiene mayor dispersión que Y ? 59 Grado en Estadı́stica y Empresa 58 Grado en Estadı́stica y Empresa 60 Grado en Estadı́stica y Empresa Ejercicio 2.8 (continuación) Aunque R(X) > R(Y ), esto no significa que el grado de dispersión de X sea mayor que el de Y . Para decidir qué variable tiene un mayor grado de dispersión debemos calcular el coeficiente de variación. Para la variable edad es: n x = s2n (X) = sn (X) = CV (X) = 1 301 xi = = 37.6, n i=1 8 12839 x2 − x2 = − (37.6)2 = 189.23, 8 √ 189.23 = 13.8, sn (X) 13.8 × 100 = × 100 = 36.7%. x 37.6 Ejercicio 2.8 (continuación) Mientras que para la variable antigüedad: n y = s2n (Y ) = sn (Y ) = CV (Y ) = 1 120 yi = = 15, n i=1 8 2854 y2 − y2 = − (15)2 = 131.75, 8 √ 131.75 = 11.48, sn (Y ) 11.48 × 100 = × 100 = 76.5%. y 15 Por tanto, puesto que CV (Y ) = 76.5% > CV (X) = 36.7%, la variable Y (antigüedad) tiene una mayor dispresión, a pesar de que su rango es menor. Grado en Estadı́stica y Empresa 2.4.4 61 62 Grado en Estadı́stica y Empresa Medidas de forma: asimetrı́a y apuntamiento Se dice que una distribución de datos es simétrica cuando lo es su representación gráfica, mientras que si la representación gráfica está desplazada hacia la izquierda o hacia la derecha se dice que es asimétrica. Figure 6: (a) Simetrı́a, (b) Asimetrı́a positiva y (c) Asimetrı́a negativa. 450 300 300 250 250 200 200 150 150 100 100 400 Si el desplazamiento es hacia la derecha, se dice que la distribución tiene asimetrı́a positiva, y asimetrı́a negativa si el desplazamiento es hacia la izquierda. 350 300 250 200 150 El coeficiente de asimetrı́a de Fisher permite medir la asimetrı́a de la muestra: k 1 (xi − x)3 ni AsF = n i=1 3 . sn AsF > 0 ⇒ asimetrı́a positiva; AsF < 0 ⇒ asimetrı́a negativa. 100 50 50 50 0 −3 −2 −1 0 1 2 3 0 −0.2 0 (a) AsF = 0 0.2 0.4 0.6 0.8 1 1.2 0 −0.2 0 (b) AsF > 0 0.2 0.4 0.6 0.8 1 1.2 (c) AsF < 0 Observación 10 Statgraphics denomina skewness a este coeficiente. Grado en Estadı́stica y Empresa Las medidas de apuntamiento, o curtosis, tratan de valorar la estilización de la representación gráfica de una distribución de datos. Sólo tienen sentido en el caso de distribucions acampanadas con simetrı́a o ligera asimetrı́a. Se define el coeficiente de apuntamiento o de curtosis: k 1 4 i=1 (xi − x) ni n . Ap = s4n Ap ≈ 3 ⇒ distribución normal (mesocúrtica), Ap > 3 ⇒ distribución apuntada (leptocúrtica), Ap < 3 ⇒ distribución plana (platicúrtica). Observación 11 Statgraphics calcula el coeficiente de apuntamiento de Fisher, Ap − 3, al que denomina kurtosis. De manera que: si Ap − 3 ≈ 0 ⇒ distribución normal (mesocúrtica), si Ap − 3 > 0 ⇒ distribución apuntada (leptocúrtica), si Ap − 3 < 0 ⇒ distribución plana (platicúrtica). 63 64 Grado en Estadı́stica y Empresa Figure 7: (a) Mesocúrtica, (b) Leptocúrtica y (c) Platicúrtica. 1000 1000 1000 900 900 900 800 800 800 700 700 700 600 600 600 500 500 500 400 400 400 300 300 300 200 200 200 100 100 0 −6 −4 −2 0 2 (a) Ap = 3 4 6 0 100 −6 −4 −2 0 2 (b) Ap > 3 4 6 0 −6 −4 −2 0 2 (c) Ap < 3 4 6 65 Grado en Estadı́stica y Empresa Ejemplo 2.10 Con los datos del ejemplo 2.3 calcular la media aritmética, la mediana y la moda, el primer y tercer cuartiles, el percentil 95%, la varianza y desviación tı́pica muestrales, el rango, el rango intercuartı́lico y la MEDA. hojas atacadas 0 1 2 3 4 5 6 8 10 Total ni 6 10 12 8 5 4 3 1 1 50 Ni 6 16 28 36 41 45 48 49 50 x i ni 0 10 24 24 20 20 18 8 10 134 Me 134 50 = 2.68, x +x = (25) 2 (26) Observemos que M e < x, por tanto, esto debe advertirnos que la distribución tiene asimetrı́a positiva, tal como indican el diagrama de barras y el polı́gono de frecuencias: 8 = 2, M o = 2. 6 ¿Qué deducimos de la posición relativa entre media y mediana? 4 2 0 67 Ni 6 16 28 36 41 45 48 49 50 1 2 3 4 5 6 7 8 9 10 68 Grado en Estadı́stica y Empresa Ejemplo 2.10 (continuación): Ejemplo 2.10 (continuación): ni 6 10 12 8 5 4 3 1 1 50 polı́gono de frecuencias diagrama de barras 12 10 Grado en Estadı́stica y Empresa hojas atacadas 0 1 2 3 4 5 6 8 10 Total Ejemplo 2.10 (continuación): Medidas de tendencia central: x= 66 Grado en Estadı́stica y Empresa Medidas de posición: n/4 = 12.5 ⇒ Q1 = 1, 3n/4 = 37.5 ⇒ Q3 = 4, 95n/100 = 47.5 ⇒ P95 = 6. ¿Qué significa que P95 = 6? ¿Qué intervalo contiene el 50% central de la muestra? hojas atacadas 0 1 2 3 4 5 6 8 10 Total ni 6 10 12 8 5 4 3 1 1 50 Ni 6 16 28 36 41 45 48 49 50 x i ni 0 10 24 24 20 20 18 8 10 134 x2i ni 0 10 48 72 80 100 108 64 100 582 Medidas de dispersión: s2n = 582/50 − 2.682 = 4.46, √ sn = 4.46 = 2.11, R = 10 − 0 = 10, RI = 4 − 1 = 3. ¿Qué significa que sn = 2.11? 69 Grado en Estadı́stica y Empresa Ejemplo 2.10 (continuación): Ejemplo 2.11 Con los datos del ejemplo 2.4 calcular la media aritmética, la mediana y la moda, el primer y tercer cuartiles, el percentil 30%, la varianza y desviación tı́pica muestrales, el rango y el rango intercuartı́lico. ¿Cuánto vale la MEDA? Recordemos que M e = 2. xi 0 1 2 3 4 5 6 8 10 xi − M e(X) -2 -1 0 1 2 3 4 6 8 ni 6 10 12 8 5 4 3 1 1 yi = |xi − M e(X)| 0 1 2 3 4 6 8 Total n = 50 ⇒ M EDA = ni 12 18 11 4 3 1 1 50 Ni 12 30 41 45 48 49 50 Medidas de tendencia central: intervalo xi ni Ni ni /Li x i ni [0, 4) 2 9 9 9/4 18 x= [4, 8) 6 5 14 5/4 30 Intervalo mediano: [4, 8), [8, 12) 10 4 18 4/4 40 M e = 4 + (8 − 4) 10−9 14−9 = 4.8, [12, 16] 14 2 20 2/4 28 Intervalo modal: [0, 4), Total 20 116 116 20 = 5.8, 5/4 = 4. M o = 0 + (4 − 0) 0+5/4 ¿Qué significa Mo=4? y(25) + y(26) = 1. 2 ¿Qué tipo de asimetrı́a presenta esta muestra de datos? 71 Grado en Estadı́stica y Empresa 70 Grado en Estadı́stica y Empresa 72 Grado en Estadı́stica y Empresa Ejemplo 2.11 (continuación): Observemos que M e < x, por tanto, esto debe advertirnos de que la distribución tiene asimetrı́a positiva, tal como indican el histograma y el polı́gono de frecuencias: 2.5 polı́gono de frecuencias histograma 2 1.5 1 Ejemplo 2.11 (continuación): intervalo xi ni Ni [0, 4) 2 9 9 [4, 8) 6 5 14 Q1 = 0 + 4(5−0) 9−0 [8, 12) 10 4 18 Q3 = 8 + 4(15−14) 18−14 [12, 16] 14 2 20 P30 = 0 + 4(6−0) 9−0 Total 0.5 0 4 8 12 16 20 Medidas de posición: = 2.22, = 9, = 2.67. 73 Grado en Estadı́stica y Empresa Ejercicio 2.9 Una empresa inmobiliaria ofrece apartamentos en régimen de alquiler con los siguientes precios (en euors): Ejemplo 2.11 (continuación): xi ni Ni x i ni x2i ni [0, 4) 2 9 9 18 36 s2n = [4, 8) 6 5 14 30 180 sn = [8, 12) 10 4 18 40 400 [12, 16] 14 2 20 28 392 116 1008 20 1008 20 √ Ni 21 48 82 96 104 115 125 21 27 34 14 8 11 10 R = 16 − 0 = 16, RI = 9 − 2.22 = 6.78. a) Obtener el alquiler medio por apartamento, el precio más frecuente y el precio que se situa en medio de la oferta. Ejercicio 2.9 (continuación): ni 21 27 34 14 8 11 10 125 700-1000 1000-1100 1100-1300 1300-1500 1500-1800 1800-2000 2000-2100 16.76 = 4.09, 75 xi 850 1050 1200 1400 1650 1900 2050 número de apartamentos − 5.82 = 16.76, Grado en Estadı́stica y Empresa [li−1 , li ) [700, 1000) [1000, 1100) [1100, 1300) [1300, 1500) [1500, 1800) [1800, 2000) [2000, 2100] Total precio alquiler (mensual) Medidas de dispersión: intervalo Total 74 Grado en Estadı́stica y Empresa fi 0.168 0.216 0.272 0.112 0.064 0.088 0.08 1 x i ni 17850 28350 40800 19600 13200 20900 20500 161200 ni /Li 0.07 0.27 0.17 0.07 0.027 0.055 0.1 ¿Cuál es el intervalo modal? ¿Y el intervalo mediano? El alquiler medio por apartamento es ... El precio más frecuente es ... El precio que se situa en medio de la oferta es ... Grado en Estadı́stica y Empresa Ejercicio 2.9 (continuación): b) Si una persona está dispuesta a gastarse en alquiler entre 1250 y 1350 euros al mes, a qué porcentaje de apartamentos tiene opción? c) Por debajo de qué precio están el 80% de los apartamentos? d) Entre qué precios están el 50% central de los apartamentos? Soluciones: a) 1289.6 euros/mes, 1070.83 euros/mes, 1185.29 euros/mes; b) 9.6%; c) 1650 euros/mes; d) entre 1037.96 y 1467.86 euros/mes 76 77 Grado en Estadı́stica y Empresa Grado en Estadı́stica y Empresa 3.1 3 Si X es la variable original y a, b ∈ R, entonces Y = a + b X es una transformación lineal de X. Transformar un conjunto de observaciones de una variable cuantitativa consiste en modificar cada una de ellas mediante una misma operación matemática, obteniendo ası́ el conjunto de datos transformados. Propiedades: Si x, s2n (X), M e(X) y M EDA(X) son la media, la varianza, la mediana y la MEDA de X, respectivamente, entonces: 1. La media y varianza de Y son: y = a + b x, s2n (Y ) = b2 s2n (X), La transformación de datos se realiza con el fin de obtener una nueva variable cuya distribución sea más simple y con mejores propiedades (simetrı́a, media igual a cero, desviación tı́pica igual a uno, . . .) que la variable original. 2. La mediana y MEDA de Y son: M e(Y ) = a + b M e(X), M EDA(Y ) = |b| M EDA(X). Una situación habitual donde se utilizan las transformaciones lineales es cuando se hace un cambio de unidades de medida. Por ejemplo pasar de habitantes a miles de habitantes, de dólares a euros, . . . 79 Un caso particular de transformación lineal es la tipificación de una variable. La variable tipificada de X es Z= x X −x 1 = X− , sn (X) sn (X) sn (X) que equivale a decir que Z es una transformación lineal de X, con a = −x/sn (X) y b = 1/sn (X). Proposición 3.1 Toda variable tipificada tiene media cero y varianza unidad. La variable tipificada expresa el número de desviaciones estándar que cada observación dista de la media. Se utiliza para comparar la posición relativa de un mismo individuo respecto de distintas distribuciones de datos o bien, para comparar la posición relativa de individuos distintos dentro de la misma distribución de datos. Transformaciones lineales Es la forma más sencilla de transformar datos. Transformaciones Grado en Estadı́stica y Empresa 78 Grado en Estadı́stica y Empresa A pesar de las buenas propiedades de las transformaciones lineales, éstas no son suficientes para modificar rasgos más complejos de una distribución de datos, como por ejemplo la asimetrı́a. Para ello serán necesarias las transformaciones no lineales. 3.2 Transformaciones no lineales. Como regla general, se trata de escoger una transformación que conduzca a una distribución simétrica y más cercana a la distribución normal. De este modo, se podrán aplicar numerosas técnicas de inferencia estadı́stica. En una distribución simétrica unimodal, la media, la moda y la mediana coinciden; además el coeficiente de asimetrı́a es cero (ası́ como todos los momentos de orden impar). 80 81 Grado en Estadı́stica y Empresa Corrección de la asimetrı́a negativa: Cuando se tienen distribuciones de frecuencias con asimetrı́a negativa (frecuencias altas hacia el lado derecho de la distribución), es conveniente aplicar la transformación xk , k ∈ N, k ≥ 2. Esta transformación comprime la escala para valores pequeños y la expande para valores altos. Las medidas basadas en el orden de los datos, como la mediana o los cuartiles se mantienen iguales cuando se hace una transformación monótona del estilo de las previamente citadas. Por el contrario, el resto de estadı́sticos cambia. Corrección de la asimetrı́a positiva: Para distribuciones con asimetrı́a positiva (frecuencias altas hacia el lado izquierdo de la √ distribución) se usan las transformaciones x, log x, 1/x, que comprimen los valores altos y expanden los pequeños. El efecto de √ estas transformaciones está en orden creciente: menos efecto x, más efecto log x y aún más 1/x. Observación 12 Si en lugar del conjunto de observaciones originales se tiene sólo la distribución de frecuencias en una tabla con ordenación agrupada, se puede realizar la transformación modificando los extremos de las clases mediante la función elegida. En general, esto hace que cambien las longitudes de los intervalos de clase. Por tanto, si a continuación se dibuja el histograma con las nuevas clases, habrá que recalcular las alturas de cada intervalo. La transformación más utilizada es la logarı́tmica. Muchas distribuciones de datos económicos, o de consumos se convierten en simétricas al tomar la transformación logarı́tmica. 83 Grado en Estadı́stica y Empresa 82 Grado en Estadı́stica y Empresa 84 Grado en Estadı́stica y Empresa Ejemplo 3.1 (continuación:) Ejemplo 3.1 El número de dı́as que 9 trabajadores escogidos al azar de una empresa han estado de baja son los siguientes: 15 7 8 85 19 12 8 22 14 a) Representa este conjunto de datos mediante un diagrama de caja (box-plot). ¿Se detecta algún valor atı́pico? b) ¿Qué se puede decir de la simetrı́a de estos datos? c) ¿Qué transformaciones conoces que creas que pueden ser útiles para simetrizar estos datos? 0 20 40 60 80 100 dias de baja ¿Qué se puede decir de la simetrı́a de estos datos? ¿Qué transformaciones conoces que creas que pueden ser útiles para simetrizar estos datos? 85 Grado en Estadı́stica y Empresa transformación X 2 transformación √ 86 Grado en Estadı́stica y Empresa X Ejemplo 3.2 Se consideran los siguientes datos, correspondientes a la tasa de incrementos de precios al consumo, en 1985, para 24 paı́ses de la OCDE: 0 2 4 d d 6 8 (X 1000) di 2,6 4,6 transformación log(X) 6,6 8,6 10,6 2.2 7.4 5.5 16.3 transformación 1/X 7.6 3.2 32.7 15.9 2.9 5.1 9.1 5.9 4.6 5.3 1.7 6.7 4.1 20.1 3.2 3.4 3.9 2.3 5.8 40.5 Considerar la transformación logarı́tmica y comparar ambas variables. 1,9 2,4 2,9 3,4 3,9 4,4 4,9 0 0,03 0,06 0,09 0,12 0,15 87 Grado en Estadı́stica y Empresa Ejemplo 3.2 (continuación) paı́s 1 2 3 4 5 6 7 8 9 10 11 12 x 1.7 2.2 2.3 2.9 3.2 3.2 3.4 3.9 4.1 4.6 5.1 5.3 y = log(x) 0.53 0.79 0.83 1.06 1.16 1.16 1.22 1.36 1.41 1.53 1.63 1.67 88 Grado en Estadı́stica y Empresa Ejemplo 3.2 (continuación) paı́s 13 14 15 16 17 18 19 20 21 22 23 24 x 5.5 5.8 5.9 6.7 7.4 7.6 9.1 15.9 16.3 20.1 32.7 40.5 y = log(x) 1.70 1.76 1.77 1.90 2.00 2.03 2.21 2.77 2.79 3.00 3.49 3.70 Figure 8: Histograma de frecuencias absolutas. 18 15 12 10 9 8 6 6 4 3 2 0 8.2 16.4 24.6 X 32.8 41 0 0.8 1.6 2.4 3.2 4 Y = log(X) X presenta una fuerte asimetrı́a positiva: la mayor parte de los paı́ses tienen valores por debajo de 10 y, unos pocos, un valor mucho mayor. Y tiene una distribución más simétrica. 89 Grado en Estadı́stica y Empresa Ejemplo 3.2 (continuación) Ejemplo 3.2 (continuación) media cuartiles 1as y 2as barreras exteriores 90 Grado en Estadı́stica y Empresa medidas numéricas x Q1 M e = Q2 Q3 RI = Q3 − Q1 Q1 − 1.5 RI Q3 + 1.5 RI Q3 + 3 RI mı́nimo(∗) máximo(∗) X 8.975 3.2 5.4 7.6 4.4 -3.4 14.2 20.8 1.7 9.1 Y = log(X) 1.812 1.16 1.685 2.03 0.87 -0.145 3.335 4.64 0.53 3.00 Figure 9: Diagramas de caja. En la figura de la izquierda se observa una fuerte asimetrı́a positiva, mientras que en la figura de la derecha hay una ligera asimetrı́a positiva. + (*) el mı́nimo y el máximo de los datos antes de las primeras barreras exteriores. 0 + 10 20 30 40 50 0 1 X 91 Grado en Estadı́stica y Empresa 2 3 4 Y = log(X) 92 Grado en Estadı́stica y Empresa Ejemplo 3.1 (continuación) Puesto que la variable tipificada se obitene mediante la fórmula: Z= Ejercicio 3.1 Dada la distribución de edades (medidas en años) en un colectivo de 100 personas, obtener: la variable tipificada Z, los valores de la media y varianza de Z, el coeficiente de variación de Z. edad 2 7 15 30 frecuencia 47 32 17 4 X −x , sn para obtener los valores tipificados de X, necesitamos obtener, en primer lugar, la media y la desviación tı́pica de X. Para ello nos ayudamos de la tabla siguiente: xi ni x i ni x2i ni 2 47 94 188 7 32 224 1568 15 17 255 3825 30 4 120 3600 total 100 693 9181 x= 693 100 = 6.93 2 s2n = x2 − x2 = 9181 100 − (6.93) = 43.79 √ sn = 43.79 = 6.62 93 Grado en Estadı́stica y Empresa 94 Grado en Estadı́stica y Empresa Ejemplo 3.1 (continuación) Los valores tipificados de X son: Ejemplo 3.1 (continuación) 2 − 6.93 7 − 6.93 = −0.745, z2 = = 0.011, 6.62 6.62 15 − 6.93 30 − 6.93 = 1.220, z4 = = 3.485. z3 = 6.62 6.62 z1 = Calculamos la media y varianza para la variable Z: zi ni zi ni zi2 ni -0.745 47 -35.015 26.086 0.011 32 0.352 0.004 1.220 17 20.740 25.303 3.485 4 13.940 48.581 total 100 0.0017 99.974 No tiene ningún sentido calcular el coeficiente de variación de Z, puesto que al tratarse de una variable z= 0.017 100 s2z = sz = = 0.00017 ≈ 0 99.974 100 √ tipificada: − (0.00017)2 = 0.9997 ≈ 1 0.9997 = 0.9999 ≈ 1 ¿Cuánto vale el coeficiente de variación de Z? CV = sz 1 ≈ → ∞!! z 0