Estadı́stica Tema 1: Estadı́stica Descriptiva Unidimensional Unidad 1: Frecuencias y Gráficos Área de Estadı́stica e Investigación Operativa Licesio J. Rodrı́guez-Aragón Septiembre 2010 Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Introducción a la Estadı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Población, Muestra y Carácter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Frecuencias Absolutas y Relativas Frecuencia Absoluta . . . . . . . . . . . . . . . Frecuencia Relativa . . . . . . . . . . . . . . . Frecuencias Absolutas y Relativas con R Frecuencias Absolutas y Relativas con R Frecuencias Acumuladas (Cumulative). . Frecuencias Acumuladas con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gráficos para un Carácter Cualitativo Diagrama de Rectángulos . . . . . . . . . . . Diagramas de Rectángulos con R . . . . . Diagrama de Sectores . . . . . . . . . . . . . . Diagrama de Sectores con R . . . . . . . . . Pictograma . . . . . . . . . . . . . . . . . . . . . Cartograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Ordenación de datos de Carácter Cuantitativo 19 Intervalos y Marcas de Clase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Ejemplo: Ingresos Anuales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Gráficos para un Carácter Cuantitativo Diagrama de Barras . . . . . . . . . . . . . . . . . Diagrama de Barras con R . . . . . . . . . . . . Histograma . . . . . . . . . . . . . . . . . . . . . . . Histograma con R . . . . . . . . . . . . . . . . . . Polı́gonos de Frecuencias . . . . . . . . . . . . . Frecuencias Acumuladas . . . . . . . . . . . . . . Tallo y Hojas. . . . . . . . . . . . . . . . . . . . . . Tallo y Hojas con R . . . . . . . . . . . . . . . . . Box Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 23 24 25 26 27 28 29 30 31 Box Plot con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2 Contenidos Introducción a la Estadı́stica. Población, Muestra y Carácter. Frecuencias Absolutas y Relativas. Gráficos para un Carácter Cualitativo. Ordenación de datos de Carácter Cuantitativo. Gráficos para un Carácter Cuantitativo. La Distribución de Frecuencias son el objeto de la Estadı́stica Descriptiva Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 2 / 32 Introducción a la Estadı́stica Fenómenos Determinı́sticos: Aquellos que llevados a cabo en las mismas condiciones, conducen siempre al mismo resultado. Fenómenos Aleatorios: Sujetos al azar. Llevados a cabo en las mismas condiciones dan resultados diferentes. Estadı́stica, Descriptiva: Establece normas para obtener datos, ordenarlos en tablas, representarlos gráficamente y reducirlos. Inferencial: Deduce o infiere a partir de los datos, leyes o propiedades para establecer un modelo teórico de probabilidad que sigue la población de la que proceden los datos. Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 3 / 32 3 Población, Muestra y Carácter Población: Conjunto de Individuos, objetos o entes en general, sobre los que van a recaer observaciones de un número finito de caracterı́sticas. Unidad Estadı́stica: Cada uno de los elementos que componen la población estadı́stica. Muestra: Conjunto finito de unidades estadı́sticas, pudiendo estar repetidas o no. En muchos experimentos cientı́ficos la población estadı́stica es el conjunto imaginario de infinitas repeticiones del experimento. Carácter: Propiedad o cualidad inherente en las unidades estadı́sticas. Algunos medibles, cuantificables, otros no, cualidades. – Cuantitativos o Medibles: altura, peso, longitud, densidad, etc. – Cualitativos o Cualidades: Válido/Defectuoso, G/M/P, Soltero/Casado/Viudo, etc. Modalidades: Diferentes valores o situaciones que puede tomar un carácter. Variable Estadı́stica: El valor que adopta un carácter de entre sus distintas modalidades posibles. Cuantitativas. – Discretas (Cantidad finita o numerable): Pasos de vuelta completos en 1 m de barra roscada. – Continuas: Gramos de barniz por recipiente, en una planta de envasado. Cualitativas. – Nominal (No admite orden): Control de calidad, Válido, Desechar, Reparar. – Ordinal (Admite orden): Clasificación en categorı́as, productos alimenticios (huevos). Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 4 / 32 4 Frecuencias Absolutas y Relativas 5 / 32 Frecuencia Absoluta Consideremos una muestra de tamaño n, extraı́da de una población estadı́stica de la que observamos un carácter C que puede tomar las modalidades C1 , C2 , . . . , Cm . Se llama Frecuencia Absoluta de la modalidad Ci al número de veces ni que aparece repetida esa modalidad en el conjunto de observaciones realizadas. Es decir, número de unidades estadı́sticas de la muestra que presentan la modalidad Ci . Debido a que las modalidades constituyen una partición del espacio muestral, n1 + n2 + · · · + nm = m X ni = n i=1 0 ≤ ni ≤ n, para todo i = 1, 2, . . . , m Ejemplo: Fábrica de barras roscadas de 5 m. Población: Unidad Estadı́stica: Muestra: 120, 121, 120, 119, 121, 120, 120, 119, 120, 121, 120, 120, 122, 120, 121, 120, 119, 122, 120, 119 Carácter: Modalidad: Variable Estadı́stica: Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 6 / 32 5 Frecuencia Relativa La Frecuencia Relativa de la modalidad Ci se define como el cociente entre la Frecuencia Absoluta y el tamaño de la muestra, fi = ni /n para todo i = 1, . . . , m Es inmediato, por definición de Frecuencia Absoluta, f1 + f2 + · · · + fm = m X fi = 1 i=1 0 ≤ fi ≤ 1, para todo i = 1, . . . , m. Suele ser frecuente hablar en términos de porcentajes, multiplicando las frecuencias relativas por 100. Ejemplo: Carácter Ci C1 = 119 C2 = 120 C3 = 121 C4 = 122 Total ni P ni = 20 Licesio J. Rodrı́guez-Aragón fi P fi = 1 Tema 1,Unidad 1. – 7 / 32 Frecuencias Absolutas y Relativas con R > x <- c(120, 121, 120, 119, 121, 120, 120, 119, 120, 121, 120, + 120, 122, 120, 121, 120, 119, 122, 120, 119) > table(x) x 119 120 121 122 4 10 4 2 > table(x)/length(x) x 119 120 121 122 0.2 0.5 0.2 0.1 Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 8 / 32 6 Frecuencias Absolutas y Relativas con R > addmargins(table(x)) x 119 120 121 122 Sum 4 10 4 2 20 > addmargins(table(x)/length(x)) x 119 120 121 122 Sum 0.2 0.5 0.2 0.1 1.0 Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 9 / 32 Frecuencias Acumuladas (Cumulative) Frecuencia Absoluta Acumulada: Tiene sentido para variables cuantitativas y cualitativas ordinales. i X Ni = n1 + n2 + · · · + ni = nk k=1 Verificándose Nm = n. Frecuencia Relativa Acumulada: Tiene sentido para variables cuantitativas y cualitativas ordinales. i X n1 + n2 + · · · + ni Fi = = f1 + f2 + · · · + fi = fk n k=1 Verificándose Fm = 1. Ejemplo: Carácter Ci C1 = 119 C2 = 120 C3 = 121 C4 = 122 Total ni P Ni fi =n ni = 12 P Fi 1 fi = 1 Ejercicio: Calcular la tabla de Frecuencias: Absolutas, Relativas y sus respectivas Acumuladas, usando algún tipo de herramienta informática: Excel, Matlab, R, etc. Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 10 / 32 7 Frecuencias Acumuladas con R > cumsum(table(x)) 119 120 121 122 4 14 18 20 > cumsum(table(x)/length(x)) 119 120 121 122 0.2 0.7 0.9 1.0 Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 11 / 32 Gráficos para un Carácter Cualitativo 12 / 32 Diagrama de Rectángulos 0.2 Frecuencia 0 0.0 0.1 5 Frecuencia 10 0.3 0.4 15 Sobre el eje de Abcisas se representan las distintas modalidades de un carácter cualitativo y se levantan sobre ellos rectángulos de bases iguales, no solapados y cuya altura es proporcional a la frecuencia Absoluta o Relativa de cada modalidad. nd Pr Se Su nd Formación Pr Se Su Formación Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 13 / 32 8 Diagramas de Rectángulos con R Datos referentes a la formación de trabajadores de una empresa: > + + + + > > + form<-c('nd','Pr','Pr','Se','Su','Pr','Pr','Se', 'Su','Se','Su','Se','Su','Se','Su','Pr','Pr', 'Pr','Pr','Se','Su','Se','Su','Se','Su','Se', 'Su','Pr','Pr','Pr','Pr','Pr','Pr','Pr','Pr', 'Se','Se') barplot(table(form),xlab="Formación",ylab="Frecuencia") barplot(table(form)/length(form),xlab="Formación", ylab="Frecuencia") Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 14 / 32 Diagrama de Sectores Sobre un cı́rculo, se asigna a cada una de las modalidades un sector circular con amplitud proporcional a la frecuencia (absoluta o relativa). Amplitudi = 360◦ × ni = 360◦ × fi n Pr nd Se Su Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 15 / 32 9 Diagrama de Sectores con R A chart made by plotting the numeric values of a set of quantities as a set of adjacent circular wedges with arc lengths proportional to the total amount. > pie(table(form)) Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 16 / 32 Pictograma Cada modalidad se representa mediante un dibujo de tamaño proporcional a la frecuencia de la misma. Todos los dibujos empleados son del mismo tamaño, a cada modalidad se le asignan tantos dibujos o partes del mismo según su frecuencia. Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 17 / 32 10 Cartograma Representación por medio de un mapa. Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 18 / 32 11 Ordenación de datos de Carácter Cuantitativo 19 / 32 Intervalos y Marcas de Clase En las observaciones de un Carácter Cuantitativo puede ocurrir: La variable estadı́stica tome pocos valores diferentes. Confeccionar la tabla de frecuencias ordenando los valores del carácter de menor a mayor: Carácter Ci C1 C2 .. . Cm Total P ni n1 n2 .. . Ni N1 = n1 N2 .. . nm ni = n Nm = n P fi f1 f2 .. . Fi F1 = f1 F2 .. . fm fi = 1 Fm = 1 La variable estadı́stica tome muchos valores diferentes, caracteres cuantitativos continuos y muestras de gran tamaño. Agrupar los valores de la variable estadı́stica en Intervalos de Clase, contiguos y elegidos convenientemente para perder la mı́nima información posible. Los extremos de los intervalos de clase se denominan Extremos de Clase, bi , y sus puntos medios Marcas de Clase, xi . El número de Intervalos de Clase se elige entre 4 y 15 de forma que en cada intervalo haya al menos 5 observaciones. Los Intervalos de Clase no pueden solaparse. Intervalo de Clase: [bi−1 , bi ). Marca de Clase: xi = bi−1 +bi . 2 [b1 , b2 ) [b2 , b3 ) .. . [bm−1 , bm ] Total xi x1 x2 .. . xm P ni n1 n2 .. . Ni N1 = n1 N2 .. . nm ni = n Nm = n Licesio J. Rodrı́guez-Aragón P fi f1 f2 .. . Fi F1 = f1 F2 .. . fm fi = 1 Fm = 1 Tema 1,Unidad 1. – 20 / 32 12 Ejemplo: Ingresos Anuales 66814.19 61674.64 78121.21 69897.92 59618.82 42144.33 53451.35 28781.49 58590.90 25697.76 25697.76 16446.57 12334.92 52423.44 26725.67 35976.87 39060.60 13362.83 9867.94 35976.87 7195.37 45947.61 54479.26 43172.24 25697.76 51395.53 87372.40 71953.74 48311.80 6475.83 [bi−1 , bi ) [0, 20000) [20000, 40000) [40000, 60000) [60000, 80000) [80000, 100000] Total xi 10000 90000 ni P Ni fi 30 P ni = 30 Fi 1 fi = 1 Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 21 / 32 Gráficos para un Carácter Cuantitativo 22 / 32 Diagrama de Barras 0.3 Frecuencia 0.2 6 2 0.1 4 Frecuencia 8 0.4 10 0.5 Se utiliza para representar variables estadı́sticas no agrupadas, las alturas de las barras deben ser proporcionales a las frecuencias, absolutas o relativas. La suma de la altura de las barras deberá ser n o 1. 119.0 119.5 120.0 120.5 121.0 121.5 122.0 119.0 Nº Vueltas 119.5 120.0 120.5 121.0 121.5 122.0 Nº Vueltas Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 23 / 32 13 Diagrama de Barras con R Número de vueltas completas en 1 m de barra roscada. > pvuelta<-c(120, 121, 120, 119, 121, 120, 120, 119, + 120, 121,120, 120, 122, 120, 121, 120, 119, + 122, 120, 119) > barplot(table(pvuelta),space=c(100,2)) > barplot(table(pvuelta)/length(pvuelta),space=c(100,2)) Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 24 / 32 Histograma Se utiliza para representar las frecuencias absolutas o relativas cuando los datos están agrupados, el área de los rectángulos será proporcional a las frecuencias. La suma de las áreas deberá ser n o 1. Densidades de Frecuencias: altura de los rectángulos. hi = ni fi , o bien hi = bi+1 − bi bi+1 − bi Cuidado cuando la amplitud de los Intervalos de Clase no sean del mismo tamaño. 1.0e−05 Densidad de Frecuencia 0.0e+00 5.0e−06 1.0e−05 5.0e−06 0.0e+00 Densidad de Frecuencia 1.5e−05 Histograma de Ingresos 1.5e−05 Histograma de Ingresos 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 0 Ingresos 20000 40000 60000 80000 Ingresos Histogramas de los Ingresos Anuales. El área de cada rectángulo, es proporcional a la frecuencia relativa, fi . La suma de las áreas de los rectángulos es 1. Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 25 / 32 14 Histograma con R > + + + + + > + + > > > > > Ingresos<-c(66814.195,42144.338,25697.767,35976.874,39060.606, 13362.839,61674.641,53451.356,16446.571,9867.943,35976.874, 7195.375,78121.212,28781.499,12334.928,459476.077,54479.266, 43172.249,69897.927,58590.909,52423.445,25697.767,51395.534, 87372.408,59618.820,25697.767,26725.678,71953.748,48311.802, 6475.837) histograma<-hist(Ingresos,breaks=seq(0,100000,by=20000), freq=FALSE,main="Histograma de Ingresos", ylab="Densidad de Frecuencia") histograma histograma$breaks histograma$counts histograma$intensities histograma$mids Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 26 / 32 15 Polı́gonos de Frecuencias Si los datos están sin agrupar, se obtienen uniendo los extremos de las barras. 6 2 4 Frecuencia 8 10 119.0 119.5 120.0 120.5 121.0 121.5 122.0 Nº Vueltas Si los datos están agrupados, se obtiene uniendo los puntos medios superiores de los rectángulos y en los extremos con los puntos medios de las alturas de los rectángulos. Área bajo el polı́gono n o 1. 1.0e−05 5.0e−06 0.0e+00 Densidad de Frecuencia 1.5e−05 Histograma de Ingresos −20000 0 20000 40000 60000 80000 100000 120000 Ingresos Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 27 / 32 16 Frecuencias Acumuladas 0.6 0.4 Frecuencia Acumulada 10 0 0.0 0.2 5 Frecuencia Acumulada 15 0.8 20 1.0 En el caso de datos sin agrupar se utiliza el Diagrama de Frecuencias Acumuladas. 118 119 120 121 122 123 118 119 120 Nº Vueltas 121 122 123 Nº Vueltas 0.6 0.8 0 0.0 5 0.2 0.4 Frecuencia Acumulada 20 15 10 Frecuencia Acumulada 25 30 1.0 Si los datos están agrupados se utiliza el Polı́gono de Frecuencias Acumuladas. −20000 0 20000 40000 60000 80000 100000 120000 −20000 Ingresos 0 20000 40000 60000 80000 100000 120000 Ingresos Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 28 / 32 Tallo y Hojas Procedimiento semigráfico útil con menos de 50 datos. Redondear los datos a dos o tres cifras significativas. Disponerlos en una tabla con dos columnas, tallo y hojas. Cada tallo se escribe sólo una vez. El número de hojas representa la frecuencia de cada clase. 0|67 1|0236 2|66679 3|669 4|2368 Ingresos Anuales 5|12349 6|027 7|028 8|7 El punto decimal se sitúa 4 posiciones a la derecha de |. Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 29 / 32 17 Tallo y Hojas con R Menú Paquetes, Instalar Paquetes..., elegir Mirror e instalar UsingR. > library(UsingR) > ingresos <- cfb$INCOME[1:15] > stem(ingresos) The decimal point is 4 digit(s) to the right of the | 0 2 4 6 | | | | 70236 69669 23 278 > ingresos [1] 66814.195 42144.338 25697.767 35976.874 39060.606 13362.839 61674.641 [8] 53451.356 16446.571 9867.943 35976.874 7195.375 78121.212 28781.499 [15] 12334.928 Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 30 / 32 18 Box Plot Permite mostrar la distribución de los datos de una muestra. Está especialmente indicado para detectar valores atı́picos, outliers. Mediana, Median , lı́nea central, Q2 . Primer y Tercer Cuartiles, Quartiles , lı́mites de la caja, Q1 , Q2 . Ingresos Anuales Modificado 0e+00 20000 1e+05 40000 2e+05 3e+05 60000 4e+05 80000 Ingresos Anuales Lı́mites superior e Inferior, LI = Q1 − 1.5(Q3 − Q1 ), LS = Q3 + 1.5(Q3 − Q1 ). Se considerarán como valores atı́picos los valores fuera del intervalo (LI, LS). Dibujar las lı́neas que van desde los extremos de la caja hasta el valor más extremo, no atı́pico. Ingresos Anuales Modificado 0e+00 20000 1e+05 40000 2e+05 3e+05 60000 4e+05 80000 Ingresos Anuales Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 31 / 32 19 Box Plot con R library(UsingR) ingresos <- cfb$INCOME[1:15] boxplot(ingresos) ingresos <- cfb$INCOME[1:16] boxplot(ingresos) 0e+00 10000 1e+05 30000 2e+05 50000 3e+05 4e+05 70000 > > > > > Licesio J. Rodrı́guez-Aragón Tema 1,Unidad 1. – 32 / 32 20