DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 2: Tabulación y representación gráfica de los datos Problemas propuestos 2.1. El gasto de una biblioteca (en euros) durante un año determinado, es: Gasto en personal Gasto en libros Otros gastos 6.570 3.450 2.380 Hacer un diagrama de barras de frecuencias absolutas y un gráfico de sectores. 2.2. Una biblioteca contiene una cantidad de estantes de libros en varios idiomas tal como muestra la siguiente tabla: Idioma Francés Alemán Ruso Español No de estantes 78 47 20 30 Determinar la distribución de frecuencias relativas. Hacer un diagrama de barras de frecuencias relativas y un gráfico de sectores. 2.3. La estadı́stica de fotocopias de una biblioteca, durante un año determinado, es la siguiente: Reproducción de catálogos Trabajo del personal de la biblioteca Préstamo interbibliotecario Copias para usuarios de la biblioteca 16.110 63.350 2.600 43.540 Determinar la distribución de porcentajes. Hacer un diagrama de barras de porcentajes y un gráfico de sectores. 2.4. La estadı́stica de fotocopias de 4 bibliotecas (A, B, C y D), durante un año, está recogida en la siguiente tabla: Reproducción de catálogos Trabajo del personal de la biblioteca Préstamo interbibliotecario Copias para usuarios de la biblioteca A 16.110 63.350 2.600 43.540 B 3.640 11.360 1.090 58.040 Hacer un diagrama de barras conjunto de frecuencias absolutas. C 0 3.080 560 1.980 D 3.400 5.500 250 0 2 Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Problemas del Tema 2 2.5. El número de citas en diferentes campos de investigación y en distintos años, viene dado en la tabla siguiente: 1970 330 299 115 329 Sociologı́a Economı́a Polı́tica Psicologı́a 1980 414 393 357 452 1990 547 295 137 258 Hacer un diagrama de barras conjunto de frecuencias relativas. 2.6. La siguiente tabla muestra el número de artı́culos, patentes y otras publicaciones recogidas en tres revistas de resúmenes de artı́culos de investigación: artı́culos 51 32 82 60 52 85 84 71 116 Copper Abstracts: Enero 1973 Lead Abstracts: Enero 1973 Zinc Abstracts: Enero 1973 Copper Abstracts: Enero 1986 Lead Abstracts: Enero 1986 Zinc Abstracts: Enero 1986 Copper Abstracts: Enero 1990 Lead Abstracts: Enero 1990 Zinc Abstracts: Enero 1990 patentes 0 5 0 2 5 10 8 17 22 otras 5 5 12 12 6 23 13 6 24 Hacer un diagrama de barras conjunto de porcentajes. 2.7. El número de descriptores (keywords) de 72 artı́culos de investigación viene dado por: No de descriptores No de artı́culos 3 5 4 8 5 12 6 7 7 9 8 9 9 10 10 5 11 3 12 2 13 1 14 1 Hacer un diagrama de barras de frecuencias absolutas. 2.8. La altura, en centı́metros, de una colección de libros es la siguiente: Altura No de libros 15 1 16 0 17 3 18 4 19 4 20 2 21 4 22 5 23 2 24 2 25 2 26 1 27 1 Determinar la distribución de frecuencias relativas y hacer un polı́gono de frecuencias relativas. 2.9. El número de palabras por lı́nea de una página de un libro viene dado por: No de palabras No de lı́neas 4 1 5 1 8 2 9 3 10 2 11 7 12 11 13 14 14 3 15 2 16 1 17 1 Determinar la distribución de frecuencias acumuladas absolutas y hacer el gráfico de frecuencias acumuladas absolutas. 2.10. Los siguientes datos corresponden al número de palabras por resumen de los artı́culos cientı́ficos de autores españoles que han publicado en una determinada revista de investigación durante un año concreto: 3 Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Problemas del Tema 2 10 11 12 15 15 14 15 18 16 17 17 16 20 19 19 18 17 20 18 12 19 20 23 17 21 22 22 14 14 15 17 15 13 13 21 17 19 12 20 15 Determinar la distribución de frecuencias absolutas, relativas, acumuladas absolutas y acumuladas relativas. Hacer un diagrama de barras de frecuencias absolutas, un polı́gono de frecuencias relativas y un gráfico de frecuencias acumuladas relativas. 2.11. Los siguientes datos agrupados en intervalos se refieren al número de llamadas telefónicas recibidas en el servicio de información de una biblioteca pública durante 45 dı́as elegidos al azar: No de llamadas No de dı́as (9,15] 2 (15,21] 4 (21,27] 8 (27,33] 14 (33,39] 10 (39,45] 6 (45,51] 1 Dibujar el histograma, el polı́gono de frecuencias (no acumuladas) y el polı́gono de frecuencias acumuladas absolutas. 2.12. El número de socios de 84 bibliotecas públicas, viene dado por: 1.995 995 2.750 1.250 2.100 3.500 1.500 1.750 1.500 1.200 800 995 1.050 995 3.000 3.250 995 3.250 3.500 2.000 3.500 2.400 2.750 3.750 2.500 3.000 1.600 1.800 3.500 1.200 1.500 2.200 4.500 750 4.000 1.500 3.000 3.000 3.000 1.750 2.500 950 995 1.750 1.950 1.850 2.050 1.800 3.000 1.200 2.250 3.250 1.700 3.250 2.750 2.800 3.000 2.400 5.500 1.200 1.500 1.450 2.750 2.100 2.100 1.700 3.500 750 2.200 1.250 3.750 2.500 2.500 2.500 1.800 4.500 1.250 3.000 2.150 2.000 1.600 3.000 950 1.250 Aunque la variable es cuantitativa discreta, se desea agrupar los datos en intervalos de la misma amplitud. A partir de esta agrupación, determinar la distribución de frecuencias y dibujar el histograma, el polı́gono de frecuencias relativas y el polı́gono de frecuencias acumuladas relativas. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 2: Tabulación y representación gráfica de los datos Soluciones de los problemas propuestos 2.1. La variable estadı́stica es el tipo o modalidad de gasto. Es cualitativa nominal. Tiene 3 categorı́as, clases o modalidades. Cada vez que se realiza un gasto en la biblioteca se observa dicha variable (cada individuo es cada gasto que se hace). Categorı́as (Tipos de gasto) Gasto en personal Gasto en libros Otros gastos suma fi 6570 3450 2380 12400 ángulos 1900 74o 1000 16o 690 10o 3600 00o Diagrama de barras de frecuencias absolutas: se sitúan en el eje horizontal las categorı́as y sobre cada una de ellas se levanta un rectángulo de altura igual a la frecuencia absoluta, fi . Gráfico de sectores: se divide el área de un cı́rculo en sectores circulares de ángulos iguales a los que aparecen en la última columna de la tabla anterior. 2.2. La variable estadı́stica es el idioma. Es cualitativa nominal. Tiene 4 categorı́as, clases o modalidades. Los individuos a los que se les observa dicha variable son los estantes (se supone que en cada estante sólo hay libros en el mismo idioma; es decir, en un estante no se mezclan dos idiomas). Categorı́as (Idiomas) Francés Alemán Ruso Español suma fi 78 47 20 30 175 hi 0 0 4457 00 2686 00 1143 00 1714 10 0000 ángulos 1600 452o 960 696o 410 148o 610 704o 3600 000o Diagrama de barras de frecuencias relativas: se sitúan en el eje horizontal las categorı́as y sobre cada una de ellas se levanta un rectángulo de altura igual a la frecuencia relativa, hi . Gráfico de sectores: se divide el área de un cı́rculo en sectores circulares de ángulos iguales a los que aparecen en la última columna de la tabla anterior. 2.3. La variable estadı́stica es el tipo de fotocopia (¿con qué fin está hecha?). Es cualitativa nominal. Tiene 4 categorı́as, clases o modalidades. Los individuos a los que se les observa dicha variable son todas y cada una de las fotocopias que se realizan en la mencionada biblioteca durante el determinado año. Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 2 Categorı́as (Tipos de fotocopia) Reproducción de catálogos Trabajo del personal de la biblioteca Préstamo interbibliotecario Copias para usuarios de la biblioteca suma fi 16110 63350 2600 43540 125600 %i 0 12 83 500 44 20 07 340 67 1000 00 2 ángulos 460 188o 1810 584o 70 452o 1240 812o 3600 000o Diagrama de barras de porcentajes: se sitúan en el eje horizontal las categorı́as y sobre cada una de ellas se levanta un rectángulo de altura igual al porcentaje, %i . Gráfico de sectores: se divide el área de un cı́rculo en sectores circulares de ángulos iguales a los que aparecen en la última columna de la tabla anterior. 2.4. Tenemos 4 variables estadı́sticas cualitativas nominales cuyas categorı́as son las mismas (Reproducción de catálogos, Trabajo del personal de la biblioteca, Préstamo interbibliotecario y Copias para usuarios de la biblioteca). Cada una de estas cuatro variables es totalmente análoga a la variable definida en el problema anterior. Categorı́as (Tipos de fotocopia) Reproducción de catálogos Trabajo del personal de la biblioteca Préstamo interbibliotecario Copias para usuarios de la biblioteca A fi 16 110 63 350 2 600 43 540 B fi 3 640 11 360 1 090 58 040 C fi 0 3 080 560 1 980 D fi 3 400 5 500 250 0 Diagrama de barras conjunto de frecuencias absolutas: se sitúan en el eje horizontal las cuatro categorı́as y sobre cada una de ellas se levanta un rectángulo de altura igual a la frecuencia absoluta, fi , con distinto color o trama de relleno para cada una de las cuatro bibliotecas. Este gráfico es similar a la Figura 2.3 del libro. 2.5. Tenemos 3 variables estadı́sticas cualitativas nominales cuyas categorı́as son las mismas (sociologı́a, economı́a, polı́tica y psicologı́a). Por ejemplo, la primera de las variables es área de investigación de las citas que aparecen en los artı́culos publicados en 1970. Los individuos a los que se les observa dicha variable son todas y cada una de las citas que aparecen en los artı́culos publicados en 1970. Las otras dos variables se definen de forma análoga (. . . 1980 y . . . 1990 ). Categorı́as (Áreas de investigación) Sociologı́a Economı́a Polı́tica Psicologı́a suma 1970 fi hi 330 00 3075 299 00 2787 115 00 1072 329 00 3066 1 073 10 0000 1980 fi hi 414 00 2562 393 00 2432 357 00 2209 452 00 2797 1 616 10 0000 1990 fi hi 547 00 4422 295 00 2385 137 00 1108 258 00 2086 1 237 10 0000 Diagrama de barras conjunto de frecuencias relativas: se sitúan en el eje horizontal las cuatro categorı́as y sobre cada una de ellas se levanta un rectángulo de altura igual a la frecuencia relativa, hi , con distinto color o trama de relleno para cada uno de los tres años. Este gráfico es similar a la Figura 2.3 del libro (pero con las frecuencias relativas en vez de las frecuencias absolutas) 3 Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 2 2.6. Tenemos 9 variables estadı́sticas cualitativas nominales cuyas categorı́as son las mismas (artı́culos, patentes y otras publicaciones). Por ejemplo, la primera de las variables es tipo de publicación recogida en el volumen de 1973 de la revista Copper Abstracts. Los individuos a los que se les observa dicha variable son todos y cada uno de los resúmenes recogidos en el volumen de 1973 de la revista Copper Abstracts. Las otras ocho variables se definen de forma análoga. Categorı́as (Tipos de publicación) Artı́culos Patentes Otras publicaciones Enero 1973 Copper Lead Zinc 910 07 760 19 870 23 0 110 90 0 0 8 93 110 90 120 77 porcentajes Enero 1986 Copper Lead Zinc 810 08 820 54 720 03 20 70 70 94 80 47 0 0 16 22 9 52 190 49 Enero 1990 Copper Lead Zinc 800 00 750 53 710 60 70 62 180 09 130 58 120 38 60 38 140 81 Diagrama de barras conjunto de porcentajes: se sitúan en el eje horizontal las tres categorı́as y sobre cada una de ellas se levanta un rectángulo de altura igual al porcentaje, %i , con distinto color o trama de relleno para cada una de las nueve posibilidades. Este gráfico es similar a la Figura 2.3 del libro (pero con los porcentajes en vez de las frecuencias absolutas) 2.7. La variable estadı́stica es el número de descriptores o keywords. Es cuantitativa discreta. Los individuos a los que se les observa la variable son todos y cada uno de los 72 artı́culos de investigación de la muestra. xi fi 3 5 4 8 5 12 6 7 7 9 8 9 9 10 10 5 11 3 12 2 13 1 14 1 Diagrama de barras de frecuencias absolutas: se sitúan en el eje horizontal los xi y sobre cada uno de ellos se levanta un segmento rectilı́neo de altura igual a la correspondiente frecuencia absoluta, fi . 2.8. La variable estadı́stica es la altura de los libros. Es cuantitativa continua. Los individuos a los que se les observa la variable son los 31 libros de la muestra. xi fi hi 15 1 00 032 16 0 00 000 17 3 00 097 18 4 00 129 19 4 00 129 20 2 00 065 21 4 00 129 22 5 00 161 23 2 00 065 24 2 00 065 25 2 00 065 26 1 00 032 27 1 00 032 Polı́gono de frecuencias relativas: se sitúan los puntos que resultan de tomar en el eje horizontal los distintos valores de la variable, xi , y en el eje vertical sus correspondientes frecuencias relativas, hi , uniendo después los puntos mediante segmentos rectilı́neos. 2.9. La variable estadı́stica es el número de palabras por lı́nea. Es cuantitativa discreta. Los individuos a los que se les observa la variable son todas y cada una de las 48 lı́neas de la página del libro. xi fi Fi 4 1 1 5 1 2 8 2 4 9 3 7 10 2 9 11 7 16 12 11 27 13 14 41 14 3 44 15 2 46 16 1 47 17 1 48 Gráfico de frecuencias acumuladas absolutas: es la representación gráfica de las frecuencias acumuladas absolutas, F , para todo valor numérico, x. Es una gráfica en forma de “escalera”. Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 2 4 2.10. La variable estadı́stica es el número de palabras por resumen. Es cuantitativa discreta. Los individuos a los que se les observa la variable son los artı́culos cientı́ficos de autores españoles que han publicado en la determinada revista de investigación durante el determinado año. xi 10 11 12 13 14 15 16 17 18 19 20 21 22 23 fi 1 1 3 2 3 6 2 6 3 4 4 2 2 1 hi 00 025 00 025 00 075 00 050 00 075 00 150 00 050 00 150 00 075 00 100 00 100 00 050 00 050 00 025 Fi 1 2 5 7 10 16 18 24 27 31 35 37 39 40 Hi 00 025 00 050 00 125 00 175 00 250 00 400 00 450 00 600 00 675 00 775 00 875 00 925 00 975 10 000 Diagrama de barras de frecuencias absolutas: se sitúan en el eje horizontal los xi , y sobre cada uno de ellos se levanta un segmento rectilı́neo de altura igual a la correspondiente frecuencia absoluta, fi . Polı́gono de frecuencias relativas: se sitúan los puntos que resultan de tomar en el eje horizontal los distintos valores de la variable, xi , y en el eje vertical sus correspondientes frecuencias relativas, hi , uniendo después los puntos mediante segmentos rectilı́neos. Gráfico de frecuencias acumuladas relativas: es la representación gráfica de las frecuencias acumuladas relativas, H, para todo valor numérico, x. Es una gráfica en forma de “escalera”. 2.11. La variable estadı́stica es el número de llamadas telefónicas recibidas en el servicio de información de una biblioteca pública. Es cuantitativa discreta. Los individuos a los que se les observa la variable son los dı́as. (`i , `i+1 ] fi xi Fi (9,15] 2 12 2 (15,21] 4 18 6 (21,27] 8 24 14 (27,33] 14 30 28 (33,39] 10 36 38 (39,45] 6 42 44 (45,51] 1 48 45 Histograma: se sitúan en el eje horizontal los intervalos de clase, (`i , `i+1 ], y sobre cada uno se levanta un rectángulo de área proporcional a la frecuencia absoluta. Como los intervalos tienen la misma amplitud, basta con hacer las alturas de los rectángulos iguales a las frecuencias absolutas, fi . Polı́gono de frecuencias (no acumuladas): se sitúan los puntos que resultan de tomar en el eje horizontal las marcas de clase, xi , y en el eje vertical sus correspondientes frecuencias absolutas, fi , uniendo después los puntos mediante segmentos rectilı́neos. Polı́gono de frecuencias acumuladas absolutas: se sitúan los puntos que resultan de tomar en el eje horizontal los extremos superiores de los intervalos de clase, `i+1 , y en el eje vertical sus correspondientes frecuencias acumuladas absolutas, Fi , uniendo después dichos puntos mediante segmentos rectilı́neos. Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 2 5 2.12. La variable estadı́stica es el número de socios de la biblioteca. Es cuantitativa discreta. Los individuos a los que se les observa la variable son las bibliotecas públicas. (`i , `i+1 ] (675,1 375] (1 375,2 075] (2 075,2 775] (2 775,3 475] (3 475,4 175] (4 175,4 875] (4 875,5 575] fi 19 22 18 14 8 2 1 xi 1 025 1 725 2 425 3 125 3 825 4 525 5 225 Hi 00 2262 00 4881 00 7024 00 8690 00 9643 00 9881 10 0000 Histograma: se sitúan en el eje horizontal los intervalos de clase, (`i , `i+1 ], y sobre cada uno se levanta un rectángulo de área proporcional a la frecuencia absoluta. Como los intervalos tienen la misma amplitud, basta con hacer las alturas de los rectángulos iguales a las frecuencias absolutas, fi . Polı́gono de frecuencias (no acumuladas): se sitúan los puntos que resultan de tomar en el eje horizontal las marcas de clase, xi , y en el eje vertical sus correspondientes frecuencias absolutas, fi , uniendo después los puntos mediante segmentos rectilı́neos. Polı́gono de frecuencias acumuladas relativas: se sitúan los puntos que resultan de tomar en el eje horizontal los extremos superiores de los intervalos de clase, `i+1 , y en el eje vertical sus correspondientes frecuencias acumuladas relativas, Hi , uniendo después dichos puntos mediante segmentos rectilı́neos. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 3: Medidas descriptivas de los datos Problemas propuestos 3.1. Hallar las medidas descriptivas de posición y dispersión de los datos de los problemas 2.7 al 2.11 del Tema 2. Interpretar los resultados. 3.2. Se preguntó a varias personas, elegidas al azar, el número de periódicos distintos que leı́an trimestralmente, y se obtuvo las siguientes respuestas: No de periódicos No de lectores 0 7 1 13 2 18 3 15 4 11 5 6 6 4 7 2 a) Dibujar el gráfico de frecuencias acumuladas absolutas. Calcular la mediana. b) ¿Cuál es el grado de representatividad de la mediana: muy poco representativa, poco, regular, bastante o muy representativa? 3.3. El número de personas que visitan diariamente una biblioteca fue observado durante 74 dı́as elegidos al azar, y los resultados fueron: No de personas No de dı́as 47 4 59 6 62 10 64 17 71 16 76 10 78 7 80 4 a) Hallar la media y la mediana. b) Calcular la medida de dispersión adecuada para medir el grado de representatividad de la media. Interpretar su resultado. c) Calcular la medida de dispersión adecuada para medir el grado de representatividad de la mediana. Interpretar su resultado. 3.4 La edad de las personas que aprobaron la oposición de auxiliar de biblioteca el año 1991 en España tiene la siguiente distribución: edad frecuencia [20,25] 41 (25,30] 123 (30,35] 44 (35,40] 13 (40,50] 7 (50,60] 3 a) Dibujar el polı́gono de frecuencias acumuladas absolutas. A partir de este gráfico, determinar el valor aproximado de la mediana. Determinar, después, el valor de la mediana con la fórmula estudiada. b) ¿Cuál es el grado de representatividad de la mediana? Justificar la respuesta. 3.5 Los siguientes datos corresponden al número mensual de nuevos socios de una determinada biblioteca: Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Problemas del Tema 3 27 45 35 40 18 17 12 25 21 3 22 27 30 35 14 16 24 15 20 37 25 21 12 45 30 21 12 2 12 7 24 a) Determinar la distribución de frecuencias y dibujar el polı́gono de frecuencias absolutas. b) Calcular la media y la mediana. 3.6 El número de veces que fueron consultados 60 artı́culos de investigación archivados en una hemeroteca, durante un determinado año, viene dado por la siguiente tabla: 8 23 2 12 14 7 25 9 24 6 9 1 20 1 21 20 7 35 4 24 9 2 25 23 19 21 3 26 50 45 3 22 21 46 26 36 21 20 22 2 38 5 2 2 3 4 46 65 20 22 22 10 36 46 22 21 3 37 1 37 a) Determinar la distribución de frecuencias. Calcular la medida de posición de tendencia central que resulte más representativa del conjunto total de los datos. b) Agrupar los datos en intervalos de la misma amplitud, y calcular, a partir de esta nueva clasificación, el valor de la misma medida de posición calculada en el apartado anterior. Comparar los resultados. 3.7 A continuación se ofrecen los datos correspondientes al tiempo de espera (en minutos) de 50 usuarios de una biblioteca hasta que son atendidos por algún miembro del personal de ésta. 1 20 4 5 7 3 18 20 18 10 5 6 2 19 5 20 4 22 20 24 21 13 8 7 11 4 11 6 15 8 7 10 11 16 9 9 13 4 13 10 10 15 8 12 11 12 9 6 14 7 a) Determinar la distribución de frecuencias. Calcular la media y la mediana. b) Agrupar los datos en intervalos de distinta amplitud, y calcular, a partir de esta nueva clasificación, las mismas medidas descriptivas del apartado anterior. Comparar los resultados. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 3: Medidas descriptivas de los datos Soluciones de los problemas propuestos 3.1. 2.7. Primer Decil=D1 = 4 keywords (deja por debajo de él el 10 % de los datos) Primer Cuartil=Q1 = 5 keywords (deja por debajo de él el 25 % de los datos) Mediana=Me = 7 keywords (deja por debajo de él el 50 % de los datos) Tercer Cuartil=Q3 = 9 keywords (deja por debajo de él el 75 % de los datos) Noveno Decil=D9 = 10 keywords (deja por debajo de él el 90 % de los datos) Media aritmética=x = 70 0 b 5 keywords Recorrido=R = 11 keywords ⇒ R/2 = 50 5 y R/3 = 30 6667 Recorrido intercuartı́lico=RI = 4 keywords ⇒ RI < R/2 ⇒ la mediana es representativa Desviación media respecto de la media=Dx = 20 1472 keywords Desviación media respecto de la mediana=DMe = 20 1389 keywords. Como DMe es un poco menor que Dx entonces la mediana es un poco más representativa que la media aritmética Varianza=s2 = 60 7191 keywords2 Desviación tı́pica=s = 20 5921 keywords ⇒ s < R/3 ⇒ la media es representativa Cuasivarianza=S 2 = 60 8138 keywords2 Cuasidesviación tı́pica=S = 20 6103 keywords Coeficiente de variación mediana=VMe = 00 3703 Coeficiente de variación media de Pearson=CV = 00 3674 2.8. Primer Decil=D1 = 17 centı́metros (deja por debajo de él el 10 % de los datos) Primer Cuartil=Q1 = 18 centı́metros (deja por debajo de él el 25 % de los datos) Mediana=Me = 21 centı́metros (deja por debajo de él el 50 % de los datos) Tercer Cuartil=Q3 = 23 centı́metros (deja por debajo de él el 75 % de los datos) Noveno Decil=D9 = 25 centı́metros (deja por debajo de él el 90 % de los datos) Media aritmética=x = 200 8065 centı́metros Recorrido=R = 12 centı́metros ⇒ R/2 = 6 y R/3 = 4 Recorrido intercuartı́lico=RI = 5 centı́metros ⇒ RI < R/2 ⇒ la mediana es representativa Desviación media respecto de la media=Dx = 20 4058 centı́metros Desviación media respecto de la mediana=DMe = 20 3871 centı́metros. Como DMe es un poco menor que Dx entonces la mediana es un poco más representativa que la media aritmética Varianza=s2 = 80 4142 centı́metros2 Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 3 2 Desviación tı́pica=s = 20 9007 centı́metros ⇒ s < R/3 ⇒ la media es representativa Cuasivarianza=S 2 = 80 6946 centı́metros2 Cuasidesviación tı́pica=S = 20 9487 centı́metros Coeficiente de variación mediana=VMe = 00 1381 Coeficiente de variación media de Pearson=CV = 00 1394 2.9. Primer Decil=D1 = 9 palabras (deja por debajo de él el 10 % de los datos) Primer Cuartil=Q1 = 11 palabras (deja por debajo de él el 25 % de los datos) Mediana=Me = 12 palabras (deja por debajo de él el 50 % de los datos) Tercer Cuartil=Q3 = 13 palabras (deja por debajo de él el 75 % de los datos) Noveno Decil=D9 = 14 palabras (deja por debajo de él el 90 % de los datos) Media aritmética=x = 110 8 b 3 palabras Recorrido=R = 13 palabras ⇒ R/2 = 60 5 y R/3 = 40 3333 Recorrido intercuartı́lico=RI = 2 palabras ⇒ RI < R/2 ⇒ la mediana es representativa Desviación media respecto de la media=Dx = 10 6806 palabras Desviación media respecto de la mediana=DMe = 10 625 palabras. Como DMe es un poco menor que Dx entonces la mediana es un poco más representativa que la media aritmética Varianza=s2 = 50 63 b 8 palabras2 Desviación tı́pica=s = 20 3746 palabras ⇒ s < R/3 ⇒ la media es representativa Cuasivarianza=S 2 = 50 7589 palabras2 Cuasidesviación tı́pica=S = 20 3998 palabras Coeficiente de variación mediana=VMe = 00 1979 Coeficiente de variación media de Pearson=CV = 00 2007 2.10. Primer Decil=D1 = 12 palabras (deja por debajo de él el 10 % de los datos) Primer Cuartil=Q1 = 140 5 palabras (deja por debajo de él el 25 % de los datos) Mediana=Me = 17 palabras (deja por debajo de él el 50 % de los datos) Tercer Cuartil=Q3 = 19 palabras (deja por debajo de él el 75 % de los datos) Noveno Decil=D9 = 21 palabras (deja por debajo de él el 90 % de los datos) Media aritmética=x = 160 7 palabras Recorrido=R = 13 palabras ⇒ R/2 = 60 5 y R/3 = 40 3333 Recorrido intercuartı́lico=RI = 40 5 palabras ⇒ RI < R/2 ⇒ la mediana es representativa Desviación media respecto de la media=Dx = 20 68 palabras Desviación media respecto de la mediana=DMe = 20 65 palabras. Como DMe es un poco menor que Dx entonces la mediana es un poco más representativa que la media aritmética Varianza=s2 = 100 36 palabras2 Desviación tı́pica=s = 30 2187 palabras ⇒ s < R/3 ⇒ la media es representativa Cuasivarianza=S 2 = 100 6256 palabras2 Cuasidesviación tı́pica=S = 30 2597 palabras Coeficiente de variación mediana=VMe = 00 1893 Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 3 3 Coeficiente de variación media de Pearson=CV = 00 1927 2.11. Primer Decil=D1 = 180 75 llamadas (deja por debajo de él el 10 % de los datos) Primer Cuartil=Q1 = 240 9375 llamadas (deja por debajo de él el 25 % de los datos) Mediana=Me = 300 6429 llamadas (deja por debajo de él el 50 % de los datos) Tercer Cuartil=Q3 = 360 45 llamadas (deja por debajo de él el 75 % de los datos) Noveno Decil=D9 = 410 5 llamadas (deja por debajo de él el 90 % de los datos) Media aritmética=x = 300 4 llamadas Recorrido=R = 42 llamadas ⇒ R/2 = 21 y R/3 = 14 Recorrido intercuartı́lico=RI = 110 5125 llamadas ⇒ RI < R/2 ⇒ la mediana es representativa Desviación media respecto de la media=Dx = 60 3644 llamadas Desviación media respecto de la mediana=DMe = 60 4238 llamadas. Como Dx es un poco menor que DMe entonces la media aritmética es un poco más representativa que la mediana Varianza=s2 = 670 84 llamadas2 Desviación tı́pica=s = 80 2365 llamadas ⇒ s < R/3 ⇒ la media es representativa b llamadas2 Cuasivarianza=S 2 = 690 3 81 Cuasidesviación tı́pica=S = 80 3296 llamadas Coeficiente de variación mediana=VMe = 00 2688 Coeficiente de variación media de Pearson=CV = 00 2709 3.2. La distribución de frecuencias es: xi fi Fi xi fi 0 7 7 0 1 13 20 13 2 18 38 36 3 15 53 45 4 11 64 44 5 6 70 30 6 4 74 24 7 2 76 14 suma 206 a) Gráfico de frecuencias acumuladas absolutas: es la representación gráfica de las frecuencias acumuladas absolutas, F , para todo valor numérico, x. Es una gráfica en forma de “escalera”. Mediana=Me = 20 5 periódicos. b) Como el recorrido intercuartı́lico es RI = 3 periódicos y la mitad del recorrido es R/2 = 30 5 periódicos, entonces se cumple que RI es un poco menor que R/2 y, como consecuencia, la mediana es bastante representativa. 3.3. a) Media (aritmética)=x = 670 7297 personas. Mediana=Me = 670 5 personas. Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 3 4 b) La desviación tı́pica es s = 80 1677 personas. Como R/3 = 11, entonces se cumple que s es bastante menor que R/3 y, como consecuencia, la media aritmética es bastante representativa. c) El recorrido intercuartı́lico es RI = 14 personas. Como R/2 = 160 5, entonces RI es bastante menor que R/2 y, como consecuencia, la mediana es bastante representativa. 3.4. a) Polı́gono de frecuencias acumuladas absolutas: se sitúan los puntos que resultan de tomar en el eje horizontal los extremos superiores de los intervalos de clase, y en el eje vertical sus correspondientes frecuencias acumuladas absolutas, uniendo después dichos puntos mediante segmentos rectilı́neos. A partir del polı́gono anterior se deduce que la mediana es aproximadamente igual a 28 años. Con la fórmula se obtiene que la mediana es Me = 280 0285 años. b) El recorrido intercuartı́lico es RI = 50 37 años. Como R/2 = 20 entonces RI es mucho menor que R/2 y, como consecuencia, la mediana es muy representativa. 3.5. a) La distribución de frecuencias (conteniendo las columnas que posteriormente necesitaremos) es: Fi xi fi (xi − x)2 fi (xi − x)3 fi (xi − x)4 fi 1 3 4020 6711 −80800 2670 1621440 0237 2 7 2580 1378 −41470 4136 666350 1123 6 48 4890 8844 −54210 3879 599960 6922 7 14 820 2044 −7450 3203 67570 5707 0 0 8 15 65 0711 −524 9070 42340 2495 0 0 9 16 49 9378 −352 8936 24930 7816 10 17 360 8044 −2230 2803 13540 5671 0 0 11 18 25 6711 −130 0670 6590 0059 12 20 90 4044 −280 8403 880 4436 0 0 15 63 12 8133 −26 4809 540 7272 0 0 16 22 1 1378 −1 2136 10 2945 18 48 10 7422 10 6261 10 5177 0 0 20 50 7 4756 14 4527 270 9420 0 0 22 54 30 9422 121 7061 4780 7106 24 60 960 1422 6660 5861 46210 6634 0 0 26 70 284 8089 3398 7194 405580 0516 27 37 1940 1378 27040 9864 376890 4768 28 40 2860 7378 48550 4264 822180 5532 30 90 9620 1422 211020 9861 4628580 8279 suma 692 32970 8 b 6 131840 41 b 7 9328740 211 b 5 xi 3 7 12 14 15 16 17 18 20 21 22 24 25 27 30 35 37 40 45 b) fi 1 1 4 1 1 1 1 1 1 3 1 2 2 2 2 2 1 1 2 Polı́gono de frecuencias absolutas: se sitúan los puntos que resultan de tomar en el eje horizontal los distintos valores de la variable, xi , y en el eje vertical sus correspondientes frecuencias absolutas, fi , uniendo después los puntos mediante segmentos rectilı́neos. Media (aritmética)=x = 230 0 b 6 socios. Mediana=Me = 210 5 socios. 3.6. a) La distribución de frecuencias es: 5 Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 3 xi 1 2 3 4 5 6 7 8 9 10 12 14 19 20 21 22 23 24 25 26 35 36 37 38 45 46 50 65 fi 3 5 4 2 1 1 2 1 3 1 1 1 1 4 5 5 2 2 2 2 1 2 2 1 1 3 1 1 Fi 3 8 12 14 15 16 18 19 22 23 24 25 26 30 35 40 42 44 46 48 49 51 53 54 55 58 59 60 Como la dispersión es grande, la medida de posición más adecuada es la mediana, cuyo valor es Me = 200 5 veces. b) La distribución de frecuencias con datos agrupados en intervalos de la misma amplitud es: (`i , `i+1 ] (00 8, 10] (10, 190 2] (190 2, 280 4] (280 4, 370 6] (370 6, 460 8] (460 8, 56] (56, 650 2] xi 50 4 140 6 230 8 330 0 420 2 510 4 600 6 fi 23 3 22 5 5 1 1 Fi 23 26 48 53 58 59 60 Con los datos agrupados en estos intervalos de clase, el valor de la mediana resulta b veces. El verdadero resultado de esta medida descriptiva es el calculado en Me = 200 8 72 el apartado anterior, Me = 200 5 veces. 3.7. a) La distribución de frecuencias es: xi fi Fi xi fi 1 1 1 1 2 1 2 2 3 1 3 3 4 4 7 16 5 3 10 15 6 3 13 18 7 4 17 28 8 3 20 24 9 3 23 27 10 4 27 40 11 4 31 44 12 2 33 24 13 3 36 39 14 1 37 14 15 2 39 30 16 1 40 16 18 2 42 36 19 1 43 19 20 4 47 80 21 1 48 21 22 1 49 22 24 1 50 24 Media (aritmética)=x = 100 86 minutos. Mediana=Me = 10 minutos. b) Una posible agrupación de los datos en intervalos de distinta amplitud es: (`i , `i+1 ] fi (0,4] 7 (4,6] 6 (6,8] 7 (8,10] 7 (10,12] 6 (12,15] 6 (15,19] 4 (19,24] 7 suma xi xi fi 2 14 5 30 7 49 9 63 11 66 130 5 81 17 68 210 5 1500 5 5210 5 Fi 7 13 20 27 33 39 43 50 Con esta clasificación en intervalos, los resultados de las medidas descriptivas anteriores son: Media (aritmética)=x = 100 43 minutos. Mediana=Me = 90 4286 minutos. Los verdaderos resultados de estas medidas descriptivas son los calculados en el apartado anterior. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 4: Relación entre dos variables cuantitativas Problemas propuestos 4.1. La tabla siguiente muestra la vejez (años desde su publicación) y la frecuencia de uso (número de veces que se consulta en un año) de ocho libros: vejez del libro frecuencia de uso 1 40 3 18 2 30 4 21 3 26 5 10 4 13 3 35 a) Dibujar el diagrama de dispersión. b) Calcular el coeficiente de correlación lineal de Pearson entre ambas variables. ¿Cómo se puede calificar el grado de relación lineal entre ambas variables: muy fuerte, fuerte, regular, débil o muy débil? Razonar la respuesta. c) Determinar la ecuación de la recta de regresión mı́nimo cuadrática de la frecuencias de uso sobre la vejez del libro. Sobre el mismo gráfico en el que se ha hecho el diagrama de dispersión, representar gráficamente la recta de regresión. Estimar el número de veces (al año) que se prestarı́a un libro publicado hace 6 años. ¿Es fiable esta estimación? Justificar la respuesta. d) Determinar la ecuación de la recta de regresión mı́nimo cuadrática de la vejez del libro sobre la frecuencia de uso. Predecir la vejez de un libro que no fuese consultado ninguna vez durante todo el año. ¿Es fiable esta predicción? ¿Por qué? 4.2. El número de libros prestados a los estudiantes y a los profesores de los diferentes departamentos de una universidad en un curso académico determinado ha sido: Departamento Agricultura Antropologı́a Biologı́a Botánica Cristalografı́a Fı́sica Geologı́a Informática Ingenierı́a Matemáticas Mineralogı́a Psicologı́a Quı́mica Zoologı́a a) Dibujar el diagrama de dispersión. Estudiantes 396 1.122 311 562 149 1.446 1.579 557 1.044 710 52 1.153 737 1.343 Profesores 70 340 273 181 33 704 556 233 434 437 22 495 473 462 Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Problemas del Tema 4 2 b) Calcular el coeficiente de correlación lineal de Pearson entre ambas variables. ¿Cómo se puede calificar el grado de relación lineal entre ambas variables: muy fuerte, fuerte, regular, débil o muy débil? Razonar la respuesta. c) Determinar la ecuación de la recta de regresión mı́nimo cuadrática del número de libros prestados a los estudiantes sobre el número de libros prestados a los profesores. Estimar el número de libros prestados a los estudiantes que puede esperarse cuando el número de libros prestados a los profesores sea de 400. ¿Es fiable esta estimación? Justificar la respuesta. 4.3. El tamaño de la población y el número de libros prestados por las bibliotecas de once ciudades fue: Población × 100.000 1140 5 250 9 40 2 70 5 60 7 60 5 60 0 50 9 40 6 40 5 40 3 No de préstamos × 100.000 860 0 350 8 510 3 470 3 70 5 940 7 770 0 390 9 180 0 360 0 680 9 a) Calcular el coeficiente de correlación lineal de Pearson entre ambas variables. ¿Cómo se puede calificar el grado de relación lineal entre ambas variables: muy fuerte, fuerte, regular, débil o muy débil? Razonar la respuesta. b) Pronosticar el número de libros prestados por las bibliotecas de una ciudad de un millón de habitantes. Decir si es fiable este pronóstico, razonando la respuesta. 4.4. Los siguientes datos se refieren al número de libros y de revistas que reciben mensualmente doce bibliotecas elegidas al azar. libros 1.090 7.420 4.200 8.250 8.810 1.620 3.840 9.400 3.630 14.100 2.500 11.470 revistas 24 92 67 158 81 59 54 171 100 276 122 200 a) Calcular el coeficiente de correlación lineal de Pearson entre ambas variables. ¿Cómo se puede calificar el grado de relación lineal entre ambas variables: muy fuerte, fuerte, regular, débil o muy débil? Razonar la respuesta. b) Estimar el número de revistas que recibirı́a una biblioteca en un mes en el que le enviaran 5.000 libros. ¿Es fiable esta estimación? Justificar la respuesta. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 4: Relación entre dos variables cuantitativas Soluciones de los problemas propuestos 4.1. Sea X =número de años desde la publicación de cada libro e Y =número de veces que se consulta cada libro en un año. (a) El diagrama de dispersión o nube de puntos consiste en situar en un sistema de ejes coordenados los puntos que resultan de tomar en el eje horizontal los valores de una de las variables y en el eje vertical los valores de la otra. (b) El coeficiente de correlación lineal de Pearson entre X e Y es rxy = −00 8706. Como este coeficiente está bastante próximo a −1, la relación lineal entre ambas variables se puede calificar de fuerte. (c) La ecuación de la recta de regresión mı́nimo cuadrática de Y sobre X es Yb = 470 1494 − 70 3678 X. Al hacer la representación gráfica de esta recta de regresión en el mismo gráfico que el diagrama de dispersión se puede observar que los puntos están bastante cerca de la recta de regresión. El número estimado de veces (al año) que se prestarı́a un libro publicado hace 6 años es Yb = 470 1494 − 70 3678 · 6 = 20 9426 ' 3. Esta estimación es bastante fiable ya que existe bastante relación lineal entre X e Y (los puntos de la recta de regresión y los puntos del diagrama de dispersión están bastante próximos). b = 50 6068 − (d) La ecuación de la recta de regresión mı́nimo cuadrática de X sobre Y es X 00 1029 Y . La predicción de la vejez de un libro que no fuese consultado ninguna vez durante todo el año b = 50 6068 − 00 1029 · 0 = 50 6068; es decir, el libro tiene casi 6 años. es X Esta predicción es bastante fiable por el mismo motivo expuesto en el apartado anterior (existe bastante relación lineal entre X e Y y, por tanto, los puntos de la recta de regresión y los puntos del diagrama de dispersión están bastante próximos). 4.2. Sea X =número de libros prestados a los estudiantes de cada departamento de la determinada universidad, durante el determinado curso académico e Y =número de libros prestados a los profesores de cada departamento de la determinada universidad, durante el determinado curso académico. (a) El diagrama de dispersión o nube de puntos consiste en situar en un sistema de ejes coordenados los puntos que resultan de tomar en el eje horizontal los valores de una de las variables y en el eje vertical los valores de la otra. (b) El coeficiente de correlación lineal de Pearson entre X e Y es rxy = 00 8851. Como este coeficiente está bastante próximo a 1, la relación lineal entre ambas variables se puede calificar de fuerte. Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 4 2 (c) La recta de regresión mı́nimo cuadrática del número de libros prestados a los estudiantes sobre el número de libros prestados a los profesores es la recta de regresión mı́nimo cuadrática b = 950 9530 + 20 0831 Y de X sobre Y , cuya ecuación es: X El número de libros prestados a los estudiantes que puede esperarse cuando el número de b = 950 9530 + 20 0831 · 400 = 9290 193; es decir, libros prestados a los profesores sea de 400 es: X 929 libros, aproximadamente. Esta estimación es bastante fiable ya que el coeficiente de correlación lineal está bastante próximo a 1 y, por tanto, los puntos de la recta de regresión y los puntos del diagrama de dispersión están bastante próximos. 4.3. Sea X =número de habitantes de cada ciudad, multiplicado por 100000 e Y =número de libros prestados por la biblioteca de cada ciudad, multiplicado por 100000. (a) El coeficiente de correlación lineal de Pearson entre X e Y es rxy = 00 3846. Como este coeficiente está próximo a cero, la relación lineal entre ambas variables se puede calificar de débil. (b) Para hacer este pronóstico hay que determinar la ecuación de la recta de regresión mı́nimo cuadrática de Y sobre X, que es: Yb = 450 4902304 + 00 32532773 X. El pronóstico del número de libros prestados por las bibliotecas de una ciudad de un millón de habitantes es: Yb = 450 4902304 + 00 32532773 · 10 = 480 7435077 multiplicado por 100000= 4 874 3500 77 libros; es decir, aproximadamente 4 874 351 libros. Este pronóstico es poco fiable ya que el valor del coeficiente de correlación lineal de Pearson entre X e Y está próximo a cero y, por tanto, los puntos de la recta de regresión y los puntos del diagrama de dispersión están bastante alejados. 4.4. Sea X =número de libros recibidos mensualmente por cada biblioteca e Y =número de revistas recibidas mensualmente por cada biblioteca. (a) El coeficiente de correlación lineal de Pearson entre X e Y es rxy = 00 8605. Como este coeficiente está bastante próximo a 1, la relación lineal entre ambas variables se puede calificar de fuerte. (b) Para hacer esta estimación hay que determinar la recta de regresión mı́nimo cuadrática de Y sobre X, que es: Yb = 210 6844 + 00 0150 X. La estimación del número de revistas que recibirı́a una biblioteca en un mes en el que le enviaran 5 000 libros es: Yb = 210 6844 + 00 0150 · 5 000 = 960 6082; es decir, 97 libros, aproximadamente. Esta predicción es bastante fiable ya que el valor del coeficiente de correlación lineal de Pearson entre X e Y está bastante próximo a 1 y, por tanto, los puntos de la recta de regresión y los puntos del diagrama de dispersión están bastante próximos. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 5: Probabilidad Problemas propuestos 5.1. Un centro de información dispone de 10 ordenadores para consultar diversas bases de datos. Se realiza el experimento que consiste en observar, en diferentes instantes del dı́a, el número de ordenadores que no están ocupados. Determinar el espacio muestral. Poner dos ejemplos de sucesos (A y B). Hallar los sucesos contrarios (A y B), el suceso unión (A ∪ B), el suceso intersección (A ∩ B), el suceso diferencia (A − B), y los sucesos A ∪ B, A ∩ B y A − B. 5.2. El número de libros por estante de una biblioteca viene dado por: no de libros no de estantes 19 2 20 3 21 7 22 5 23 14 24 11 25 12 26 9 27 6 28 6 29 3 30 2 Calcular la probabilidad de que un estante elegido al azar tenga: a) exactamente 24 libros. b) 24 o 25 libros. c) menos de 24 libros. 5.3. Estamos investigando la calidad de las fotocopias hechas en una biblioteca. En una muestra de 100 copias, se observa que 2 están en blanco y manchadas, 3 están en blanco pero no están manchadas y 25 no están en blanco pero están manchadas. ¿Cuál es la probabilidad de que esta máquina fotocopiadora realice una copia que no esté en blanco ni manchada? 5.4. Una biblioteca dispone de tres empleados (A, B y C) para atender a los usuarios. El 20 % de las ocasiones está disponible (para atender a cualquier usuario) el empleado A, el 30 % de las veces está disponible el empleado B y el 25 % de las ocasiones está disponible el empleado C. Además, el 10 % de las veces están disponibles A y B, el 12 % están disponibles A y C, el 14 % están disponibles B y C, y el 8 % de las ocasiones están disponibles los tres empleados. ¿Cuál es la probabilidad de que una persona sea atendida en el mismo momento en que llegue a la biblioteca? 5.5. En un grupo de alumnos de una licenciatura en documentación, el 25 % suspendió la asignatura Análisis Documental, el 15 % la asignatura Documentación General y el 10 % ambas asignaturas. ¿Cuál es la probabilidad de que un alumno suspenda Análisis Documental o Documentación General? 5.6. En un estudio realizado en un determinado paı́s sobre la participación de la mujer en trabajos propios de la biblioteconomı́a y documentación, antes y después de ser madre, se selecciona una muestra de 683 mujeres obteniéndose los siguientes resultados: 2 Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Problemas del Tema 5 Antes NO SÍ Después NO SÍ 169 3 337 174 a) Calcular la probabilidad de que una mujer participe en dicho mercado laboral antes de ser madre. b) Calcular la probabilidad de que una mujer participe en dicho mercado laboral después de ser madre. c) Calcular la probabilidad de que una mujer participe en dicho mercado laboral antes y después de ser madre. 5.7. Los asistentes a un acto cultural preparado por una biblioteca se clasifican de la siguiente manera: Hombre Mujer menos de 18 años 17 23 entre 18 y 24 años 28 39 entre 25 y 40 años 31 50 más de 40 años 52 75 a) Calcular la probabilidad de que un asistente al acto, elegido al azar, tenga más de 40 años. b) Calcular la probabilidad de que un asistente al acto, elegido al azar, sea mujer y tenga más de 40 años. c) Calcular la probabilidad de que una mujer asistente al acto, elegida al azar, tenga más de 40 años. 5.8. Se pregunta a todos los alumnos de una determinada facultad cuántas horas dedican al estudio en la biblioteca, y los resultados son: No de horas menos de 1 hora entre 1 y 3 horas más de 3 horas Curso de la licenciatura 1o 2o 3o 4o 5o 18 20 32 77 96 22 35 90 83 50 60 70 80 60 14 a) Determinar la probabilidad de que un alumno, elegido al azar, estudie más de 3 horas diarias en la biblioteca. b) Hallar la probabilidad de que un alumno de quinto curso, elegido al azar, estudie más de 3 horas diarias en la biblioteca. c) Calcular la probabilidad de que un alumno, elegido al azar, sea de quinto curso o estudie más de 3 horas diarias en la biblioteca. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 5: Probabilidad Soluciones de los problemas propuestos 5.1. Espacio muestral= Ω = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} A = {el número de ordenadores no ocupados es menor que 4} = {0, 1, 2, 3} B = {el número de ordenadores no ocupados está comprendido entre 2 y 6} = {2, 3, 4, 5, 6} A = {4, 5, 6, 7, 8, 9, 10} B = {0, 1, 7, 8, 9, 10} A ∪ B = {0, 1, 2, 3, 4, 5, 6} A ∩ B = {2, 3} A − B = {0, 1} A ∪ B = {7, 8, 9, 10} = A ∩ B 6= A ∪ B A ∩ B = {0, 1, 4, 5, 6, 7, 8, 9, 10} = A ∪ B 6= A ∩ B A − B = {2, 3, 4, 5, 6, 7, 8, 9,10} = 6 A−B 5.2. a) 00 1375 b) 00 2875 c) 00 3875 5.3. 00 7 5.4. 00 47 5.5. 00 3 5.6. a) 00 748169838 b) 00 259150805 c) 00 254758418 5.7. a) 00 403174603 b) 00 238095238 c) 00 401069518 5.8. a) 00 351920693 b) 00 0875 c) 00 53283767 DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 6: Variables aleatorias discretas Problemas propuestos 6.1. Se sabe que el 4 % de los libros que se prestan en una biblioteca escolar se devuelven con retraso. Se realiza el experimento que consiste en observar si la devolución de un libro se ha hecho con retraso o no. a) Determinar la función de probabilidad y representarla gráficamente. b) Calcular la función de distribución y hacer su representación gráfica. c) Hallar la media y la varianza. 6.2. Sea X una variable aleatoria discreta cuya función de probabilidad viene dada por: xi pi = P (X = xi ) 1 00 2 3 00 1 5 00 3 7 00 3 9 00 1 Calcular: a) La expresión de la función de distribución F (t) para todo valor de t. b) La esperanza matemática de X. c) La varianza y la desviación tı́pica de X. 6.3. De los usuarios de una biblioteca determinada, el 23 % pertenece al grupo I de edad (menos de 20 años). Realizamos el experimento que consiste en elegir al azar tres usuarios de la biblioteca y observar la variable aleatoria X=número de usuarios que pertenecen al grupo I de edad (entre los tres elegidos al azar). a) Hallar el conjunto de los posibles resultados de la variable X, ası́ como su función de probabilidad. b) Hallar la probabilidad de que el número de usuarios que pertenecen al grupo I sea menor que dos. c) Determinar la función de distribución de X y hacer su representación gráfica. d) Calcular la media y la desviación tı́pica de X. 6.4. De un total de 500 libros, 50 son cientı́ficos. Extraemos al azar un primer libro entre los 500 y lo reponemos en la población de libros antes de realizar una nueva extracción; volvemos a extraer al azar un segundo libro entre los 500 y lo reponemos antes de hacer una nueva extracción; . . .; finalmente, extraemos un quinto libro entre los 500. Consideramos la variable aleatoria X=número de libros (entre los 5 elegidos al azar con reposición) que son cientı́ficos. a) Hallar la función de probabilidad de X y hacer su representación gráfica. Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Problemas del Tema 6 2 b) Determinar la función de distribución de X y hacer su representación gráfica. c) A partir de la función de distribución de X, calcular la probabilidad de que el número de libros cientı́ficos sea mayor que 3. d) Calcular la media y la desviación tı́pica de X. 6.5. Los libros que salen de una imprenta se clasifican en defectuosos (si tienen defectos de impresión) y no defectuosos (si no tienen defectos de impresión). Se supone que la cantidad de libros que salen de dicha imprenta es tan grande, que puede considerarse infinita. Por tanto, si elegimos y apartamos un libro, esto no altera el porcentaje de libros no defectuosos, que es 95 %. a) Si se eligen al azar 20 libros, ¿cuál es la probabilidad de que 18 de ellos sean no defectuosos? b) Si se eligen al azar 25 libros, ¿cuál es la probabilidad de que el número de libros no defectuosos sea mayor o igual que 21? 6.6. Se sabe que el 4 % de los libros que se prestan en una biblioteca escolar se devuelven con retraso. Se realiza el experimento que consiste en observar si la devolución de cada libro se ha hecho con retraso o no. Si se observan 12 libros prestados, ¿cuál es la probabilidad de que se devuelvan con retraso 2 libros?, y ¿cuál es la probabilidad de que se devuelvan con retraso más de 2 libros? 6.7. Supongamos que el 1 % de la población de todos los usuarios de una biblioteca tiene menos de 10 años. Supongamos, también, que la población es suficientemente grande como para que al elegir un usuario al azar y apartarlo, no se altere dicho porcentaje. Se eligen al azar 15 usuarios de dicha biblioteca. Calcular: a) La probabilidad de que ninguno de ellos tenga menos de 10 años. b) La probabilidad de que tengan menos de 10 años 3 usuarios o menos. c) La probabilidad de que tengan menos de 10 años menos de 3 usuarios. d) La probabilidad de que tengan menos de 10 años más de 2 usuarios. e) La probabilidad de que tengan menos de 10 años 2 usuarios o más. f ) La probabilidad de que el número de usuarios con menos de 10 años esté comprendida entre 2 (incluido) y 10 (incluido). g) El número medio de usuarios con menos de 10 años. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 6: Variables aleatorias discretas Soluciones de los problemas propuestos 6.1. a) Podemos atribuir el valor 1 al suceso A = {el libro prestado se devuelve con retraso} y el valor 0 al suceso contrario, A. Ası́, la variable aleatoria X que responde a la pregunta ¿el libro prestado se devuelve con retraso? tiene la siguiente función de probabilidad: xi 0 1 pi = P (X = xi ) 00 96 00 04 Su representación gráfica es similar al diagrama de barras de frecuencias relativas de una variable estadı́stica cuantitativa discreta (con datos no agrupados en intervalos). b) La función de distribución, para todo valor de t, es la siguiente: si t < 0 0 0 0 96 si 0 ≤ t < 1 F (t) = 1 si t ≥ 1 Su representación gráfica es similar al gráfico de frecuencias acumuladas relativas de una variable estadı́stica cuantitativa discreta (con datos no agrupados en intervalos). c) Media= µ = 00 04 , Varianza= σ 2 = 00 0384 6.2. a) La función de distribución, para todo valor 0 00 2 0 03 F (t) = 00 6 00 9 1 de t, es la siguiente: si si si si si si t<1 1≤t<3 3≤t<5 5≤t<7 7≤t<9 t≥9 b) Esperanza matemática o media de X: E(X) = µ = 5 c) Varianza= V ar(X) = σ 2 = 60 4, Desviación tı́pica= σ = 20 5298 6.3. a) X ≡ B(n = 3, p = 00 23) y, por tanto, su función de probabilidad es: P (X = k) = n! pk q n−k k!(n − k)! para k = 0, 1, 2, 3 siendo q = 1 − p = 00 77 Explı́citamente, la función de probabilidad viene dada en la siguiente tabla: Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 6 xi 0 1 2 3 2 pi = P (X = xi ) 00 456533 00 409101 00 122199 00 012167 b) P (X < 2) = 00 865634 c) La función de distribución, para todo valor de 0 00 456533 00 865634 FX (t) = 00 987833 1 t, es la siguiente: si si si si si t<0 0≤t<1 1≤t<2 2≤t<3 t≥3 Su representación gráfica es similar al gráfico de frecuencias acumuladas relativas de una variable estadı́stica cuantitativa discreta (con datos no agrupados en intervalos). d) Media= µ = n p = 3 · 00 23 = 00 69 usuarios, Varianza= σ 2 = n p q = 3 · 00 23 · 00 77 = 00 5313 usuarios2 , Desviación tı́pica= σ = 00 7289 usuarios. 6.4. a) X ≡ B(n = 5, p = 00 1) y, por tanto, su función de probabilidad es: P (X = k) = n! pk q n−k k!(n − k)! para k = 0, 1, 2, 3, 4, 5 siendo q = 1 − p = 00 9 Explı́citamente, la función de probabilidad viene dada en la siguiente tabla: xi 0 1 2 3 4 5 pi = P (X = xi ) 00 59049 00 32805 00 0729 00 0081 00 00045 00 00001 Su representación gráfica es similar al diagrama de barras de frecuencias relativas de una variable estadı́stica cuantitativa discreta (con datos no agrupados en intervalos). b) La función de distribución, para todo valor de t, 0 si 0 0 59049 si 00 91854 si 00 99144 si FX (t) = 00 99954 si 00 99999 si 1 si es la siguiente: t<0 0≤t<1 1≤t<2 2≤t<3 3≤t<4 4≤t<5 t≥5 Su representación gráfica es similar al gráfico de frecuencias acumuladas relativas de una variable estadı́stica cuantitativa discreta (con datos no agrupados en intervalos). Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 6 3 c) P (X > 3) = 1 − FX (3) = 00 00046 d) Media= µ = n p = 5 · 00 1 = 00 5 libros cientı́ficos, Varianza= σ 2 = n p q = 5 · 00 1 · 00 9 = 00 45 (libros cientı́ficos)2 , Desviación tı́pica= σ = 00 6708 libros cientı́ficos. 6.5. a) Sea X=número de libros no defectuosos, entre los 20 elegidos al azar. Entonces X ≡ B(n = 20, p = 00 95). Por tanto, P (X = 18) = FX (18) − FX (17) = 00 188677 b) Sea X=número de libros no defectuosos, entre los 25 elegidos al azar. Entonces X ≡ B(n = 25, p = 00 95). Por tanto, P (X ≥ 21) = 1 − FX (20) = 00 992835 6.6. Sea X=número de libros que se devuelven con retraso, entre los 12 libros prestados (elegidos al azar). Entonces X ≡ B(n = 12, p = 00 04). Por tanto, P (X = 2) = FX (2) − FX (1) = 00 070206 y P (X > 2) = 1 − FX (2) = 00 010729. 6.7. Sea X=número de usuarios con menos de 10 años, entre los 15 elegidos al azar. Entonces X ≡ B(n = 15, p = 00 01). a) P (X = 0) = FX (0) = 00 860058 b) P (X ≤ 3) = FX (3) = 00 999988 c) P (X < 3) = FX (2) = 00 999584 d) P (X > 2) = 1 − FX (2) = 00 000416 e) P (X ≥ 2) = 1 − FX (1) = 00 000963 f ) P (2 ≤ X ≤ 10) = FX (10) − FX (1) = 00 000963 g) E(X) = np = 00 15 usuarios con menos de 10 años. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 7: La distribución Normal Problemas propuestos 7.1. Si Z es una variable Normal Estándar, determinar: a) P (Z ≤ 20 21). b) P (Z < 30 47). c) P (Z ≤ −10 75). d) P (Z > 20 46). e) P (Z ≥ 30 24). f ) P (Z > −30 08). g) P (10 12 ≤ Z ≤ 20 68). h) P (−00 85 < Z < 10 27). i) P (−20 97 < Z ≤ −10 33). 7.2. Si X es una variable Normal con media 80 46 y desviación tı́pica 10 14, hallar: a) P (X ≤ 90 11). b) P (X < 120 33). c) P (X ≤ 60 41). d) P (X > 100 52). e) P (X ≥ 120 61). f ) P (X > 40 01). g) P (60 11 ≤ X ≤ 110 91). h) P (70 53 < X < 100 33). i) P (50 05 ≤ X < 60 83). 7.3. Si Z denota la variable aleatoria Normal Estándar, calcular el valor de a para que se verifique: a) P (Z ≤ a) = 00 722405. b) P (Z < a) = 00 344578. c) P (Z > a) = 00 284339. d) P (Z ≥ a) = 00 978822. 7.4. Hallar el valor de los siguientes cuantiles: Z00 58 , Z00 42 , Z00 999 , Z00 001 . Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Problemas del Tema 7 2 7.5. En la asignatura de archivı́stica de una licenciatura en documentación se sabe que las calificaciones siguen una distribución Normal de media 50 5 y desviación tı́pica 10 5. Si en un año académico hay 150 alumnos matriculados en esta asignatura, calcular el número de alumnos que obtendrán una calificación: a) menor o igual que 3. b) mayor o igual que 8. c) comprendida entre 4 y 6. 7.6. El cociente intelectual de 5.600 alumnos de la licenciatura en documentación de diversas universidades sigue una distribución Normal de media 130 y desviación tı́pica 6. Calcular cuántos de ellos tienen un cociente intelectual: a) mayor que 140. b) entre 125 y 135. c) menor que 120. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 7: La distribución Normal Soluciones de los problemas propuestos 7.1. a) 00 986447, b) 00 9997398, c) 00 040059, d) 00 006947, e) 00 0005976, f ) 00 998965, g) 00 127676, h) 00 700295, i) 00 09027. 7.2. a) 00 715661, b) 00 9996505, c) 00 03593, d) 00 035148, e) 00 0001363, f ) 00 9999519, g) 00 979078, h) 00 743389, i) 00 074964. 7.3. a) 00 59, b) −00 4, c) 00 57, d) −20 03. 7.4. a) 00 20189, b) −00 20189, c) 30 09023231, d) −30 09023231. 7.5. a) 00 04746·150 = 70 119 ' 7 alumnos, b) 00 04746·150 = 70 119 ' 7 alumnos, c) 00 470645·150 = 700 59675 ' 71 alumnos. 7.6. a) 00 04746 · 5600 = 2650 776 ' 266 alumnos, b) 00 593462 · 5600 = 33230 3872 ' 3323 alumnos, c) 00 04746 · 5600 = 2650 776 ' 266 alumnos. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. Josefa Marı́n Fernández Tema 8: Otras distribuciones continuas Problemas propuestos 8.1. Calcular el valor de los siguientes cuantiles: a) χ26 , 00 01 . b) χ26 , 00 99 . c) χ272 , 00 975 . 8.2. Sea X una variable aleatoria que sigue una distribución chi-cuadrado de Pearson con 15 grados de libertad. Determinar el valor de a que verifica la siguiente igualdad: a) P (X ≤ a) = 00 05. b) P (X > a) = 00 99. 8.3. Calcular el valor de los siguientes cuantiles: a) t26 , 00 9 . b) t26 , 00 1 . c) t75 , 00 8 . 8.4. Sea X una variable aleatoria que sigue una distribución t de Student con 20 grados de libertad. Determinar el valor de a que verifica la siguiente igualdad: a) P (X ≤ a) = 00 99. b) P (X ≥ a) = 00 25. 8.5. Calcular el valor de los siguientes cuantiles: a) F8 , 6 , 00 975 . b) F25 , 50 , 00 01 . c) F45 , 35 , 00 01 . 8.6. Sea X una variable aleatoria que sigue una distribución F de Snedecor con 10 grados de libertad en el numerador y 8 grados de libertad en el denominador. Determinar el valor de a que verifica la siguiente igualdad: a) P (X < a) = 00 9. b) P (X > a) = 00 05. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. Josefa Marı́n Fernández Tema 8: Otras distribuciones continuas Soluciones de los problemas propuestos 8.1. a) 00 87209, b) 160 8119, c) 970 356547. 8.2. a) 70 26094, b) 50 22935. 8.3. a) 10 315, b) −10 315, c) 00 844772. 8.4. a) 20 528, b) 00 687. 8.5. a) 50 5996, b) 00 416684, c) 00 477478. 8.6. a) 20 538, b) 30 3472. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 9: Contrastes no paramétricos Problemas propuestos 9.1. En una muestra aleatoria simple de 15 individuos que consultan bases de datos, el tiempo (en minutos) que están utilizando el ordenador para realizar esta tarea es: 22 13 17 14 15 18 19 14 17 20 21 13 15 18 17 ¿Se puede aceptar, con un nivel de significación de α = 00 05, que la variable aleatoria observada en la población de la que se ha extraı́do esta muestra es Normal. 9.2. Los siguientes datos corresponden a las edades de una muestra de 10 personas que visitan una biblioteca. 19 24 83 30 17 23 33 19 68 56 a) ¿Se puede aceptar, con un nivel de significación de α = 00 05, que la muestra es aleatoria? b) ¿Se puede aceptar, con un nivel de significación de α = 00 05, que la variable aleatoria edad de las personas que visitan la biblioteca es Normal? 9.3. Se ha estudiado el uso de la biblioteca pública por parte de los profesores universitarios, encontrándose que 42 de 113 psicólogos, 17 de 68 biólogos, 33 de 203 ingenieros y 20 de 78 profesores de inglés son usuarios de la biblioteca pública (y el resto no). ¿Se puede aceptar, con un nivel de significación de α = 00 05, que existe relación entre la especialidad de los profesores y el uso de la biblioteca pública? 9.4. El rector de una universidad española desea saber la opinión del profesorado en relación con un proyecto por el cual todos los libros comprados por los departamentos se llevarı́an a una biblioteca general universitaria ubicada en un edificio independiente de las facultades. Para ello, selecciona una muestra aleatoria de 370 profesores de distintos rangos académicos (A.E.U.= Ayudante de Escuela Universitaria, A.F.= Ayudante de Facultad, T.E.U.=Titular de Escuela Universitaria, T.U.= Titular de Universidad, C.U.= Catedrático de Universidad). Los resultados se reflejan en la siguiente tabla: en contra indiferente a favor A.E.U. 30 15 10 A.F. 55 20 25 T.E.U. 95 17 38 T.U. 14 8 8 C.U. 12 10 13 ¿Se puede aceptar que existe relación entre el rango académico y la opinión de los profesores respecto del proyecto mencionado? Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Problemas del Tema 9 2 9.5. Un profesor de estadı́stica de una licenciatura en documentación quiere estudiar la mejor forma de obtener un buen resultado en la asignatura y para ello solicita la colaboración de los alumnos durante varios cursos académicos planteándoles el siguiente esquema: al final del primer parcial califica a todos los alumnos según los resultados del examen en A (sobresaliente y notable), B (aprobado) y C (suspenso); luego les pide que contesten cuál ha sido su método de trabajo ante la signatura (I= sólo estudia teorı́a, II= sólo estudia problemas, III= estudia teorı́a y problemas). Conocidos los resultados, el profesor construye la siguiente tabla: Calificación A B C Método de trabajo I II III 15 12 65 58 70 85 40 102 53 ¿Se puede aceptar, con un nivel de significación de α = 00 05, que la calificación es independiente del método de trabajo empleado? 9.6. En una facultad de documentación se considera una muestra de 807 alumnos y se realiza una encuesta para saber cuántas horas diarias dedica cada alumno al estudio en la biblioteca, obteniéndose la siguiente tabla de resultados: No de horas menos de 1 hora entre 1 y 3 horas más de 3 horas Curso de la licenciatura 1o 2o 3o 4o 5o 18 20 32 77 96 22 35 90 83 50 60 70 80 60 14 ¿Se puede aceptar, con un nivel de significación de α = 00 05, que existe relación entre el curso al que pertenece el alumno y el tiempo que dedica al estudio en la biblioteca? DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 9: Contrastes no paramétricos Soluciones de los problemas propuestos 9.1. Sea X=Tiempo empleado en consultar bases de datos por ordenador. Hacemos el contraste de D’Agostino sobre normalidad en el que la hipótesis nula es H0 :La variable aleatoria X es Normal. El valor del estadı́stico de contraste es Dexp = 00 284074. Como el nivel de significación es α = 00 05, entonces la región de aceptación (tomando n = 16, debido a que n = 15 no está en la tabla) es (00 2587, 00 2860). Por tanto, aceptamos H0 . 9.2. Sea X=Edad de las personas que visitan la biblioteca. a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hipótesis nula es H0 :La muestra es aleatoria. El valor del estadı́stico de contraste es R = 6. Como el nivel de significación es α = 00 05, entonces la región de aceptación es (2, 10). Por tanto, aceptamos H0 . b) Hacemos el contraste de D’Agostino sobre normalidad en el que la hipótesis nula es H0 :La variable aleatoria X es Normal. El valor del estadı́stico de contraste es Dexp = 00 261150. Como el nivel de significación es α = 00 05, entonces la región de aceptación es (00 2513, 00 2849). Por tanto, aceptamos H0 . 9.3. Sean las dos variables aleatorias: X=Uso de la biblioteca pública (Si o No) e Y =Especialidad de los profesores universitarios. Se hace el contraste χ2 de Pearson sobre independencia de dos variables, en el que la hipótesis nula es H0 :Las variables X e Y son independientes. El valor del estadı́stico de contraste es χ2exp = 170 434027. Como el nivel de significación es α = 00 05, entonces la región crı́tica es χ2exp ≥ 70 81473. Por tanto, se rechaza H0 y, por tanto, se concluye que existe relación entre la especialidad de los profesores y el uso de la biblioteca pública. 9.4. Sean las dos variables aleatorias: X=Opinión de los profesores respecto del proyecto (en contra, indiferente, a favor) e Y =Rango académico de los profesores universitarios. Se hace el contraste χ2 de Pearson sobre independencia de dos variables, en el que la hipótesis nula es H0 :Las variables X e Y son independientes. El valor del estadı́stico de contraste es χ2exp = 170 295681. Si tomáramos un nivel de significación de α = 00 05, entonces la región crı́tica serı́a χ2exp ≥ 150 5073. Con este nivel de significación tendrı́amos que rechazar H0 y, por tanto, aceptarı́amos que existe relación entre el rango académico y la opinión de los profesores respecto del proyecto. Sin embargo, si tomáramos un nivel de significación de α = 00 01, entonces la región crı́tica serı́a χ2exp ≥ 200 0902. Con este nivel de significación tendrı́amos que aceptar H0 y, por tanto, aceptarı́amos que no existe relación entre el rango académico y la opinión de los profesores respecto del proyecto. Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 9 2 9.5. Sean las dos variables aleatorias: X=Calificación e Y =Método de trabajo empleado. Se hace el contraste χ2 de Pearson sobre independencia de dos variables, en el que la hipótesis nula es H0 :Las variables X e Y son independientes. El valor del estadı́stico de contraste es χ2exp = 600 900070. Como el nivel de significación es α = 00 05, entonces la región crı́tica es χ2exp ≥ 90 48773. Por tanto, se rechaza H0 y, por tanto, se concluye que la calificación no es independiente del método de trabajo empleado. 9.6. Sean las dos variables aleatorias: X=Tiempo que dedica cada alumno al estudio en la biblioteca e Y =Curso al que pertenece cada alumno. Se hace el contraste χ2 de Pearson sobre independencia de dos variables, en el que la hipótesis nula es H0 :Las variables X e Y son independientes. El valor del estadı́stico de contraste es χ2exp = 1580 754042. Como el nivel de significación es α = 00 05, entonces la región crı́tica es χ2exp ≥ 150 5073. Por tanto, se rechaza H0 y, por tanto, se concluye que existe relación entre el curso al que pertenece el alumno y el tiempo que dedica al estudio en la biblioteca. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 10: Contrastes paramétricos con una muestra Problemas propuestos 10.1. El número medio de libros por estante en una biblioteca es de 240 4, con una desviación tı́pica de 10 6. Una muestra aleatoria simple de 36 estantes de dicha biblioteca tiene una media de 250 2 libros por estante. ¿La información proporcionada por la muestra es representativa de toda la población? 10.2. El número medio recomendado de usuarios servidos semanalmente por cada miembro del personal de una biblioteca es de 100. En una muestra aleatoria simple de 81 miembros del personal de las bibliotecas de una determinada región se obtiene una media de 1320 88 usuarios servidos semanalmente, con una cuasidesviación tı́pica de 550 19. ¿Las bibliotecas de dicha región siguen la recomendación mencionada? 10.3. El precio medio de los libros en rústica es de 630 4 euros, con una desviación tı́pica de 140 8 euros. Una muestra aleatoria simple de 61 libros en rústica con ilustraciones en color tiene un precio medio de 690 5 euros, con una cuasidesviación tı́pica de 160 6 euros. a) ¿Permiten los datos afirmar que los libros en rústica con ilustraciones en color son más caros que el resto de libros en rústica? b) ¿La varianza del precio de los libros en rústica con ilustraciones en color es mayor que la del precio de los libros en rústica? 10.4. Se sabe que el número medio de veces que un artı́culo cientı́fico es citado durante los 5 siguientes años a su publicación es de 60 5. Se eligen aleatoria e independientemente 71 artı́culos de medicina, obteniéndose una media de 70 8 citas durante los 5 siguientes años a su publicación, con una cuasidesviación tı́pica de 20 3. ¿Se puede afirmar que durante los 5 siguientes años a su publicación se citan más los artı́culos de medicina que el resto de artı́culos cientı́ficos? 10.5. En una muestra aleatoria simple de 15 individuos que consultan bases de datos, el tiempo (en minutos) que están utilizando el ordenador para realizar esta tarea es: 22 13 17 14 15 18 19 14 17 20 21 13 15 18 17 ¿Se puede decir que la media del tiempo empleado en consultar bases de datos por ordenador es mayor que 15 minutos? DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 10: Contrastes paramétricos con una muestra Soluciones de los problemas propuestos 10.1. Sea X=Número de libros por estante de la biblioteca. Aunque µ es conocida, para averiguar si la información proporcionada por la muestra es representativa de toda la población, tenemos que hacer el contraste en el que la hipótesis nula es H0 : µ = 240 4. Si aceptamos la hipótesis nula (que sabemos que es verdadera) entonces la información proporcionada por la muestra es representativa de toda la población; en caso contrario, no lo es. Como σ es conocida, el valor del estadı́stico de contraste es Z = 3. Si tomamos un nivel de significación de α = 00 05, entonces la región crı́tica es Z < −10 96 ó Z > 10 96. En consecuencia, rechazamos H0 y, por tanto, la información proporcionada por la muestra no es representativa de toda la población. 10.2. Sea X=Número de usuarios servidos semanalmente por cada miembro del personal de la biblioteca. Hacemos un contraste sobre µ, con σ desconocida. La hipótesis nula es H0 : µ = 100. El valor del estadı́stico de contraste es T = 50 3618. Si tomamos un nivel de significación de α = 00 05, entonces la región crı́tica es T < −10 9901 ó T > 10 9901. En consecuencia, rechazamos H0 y, por tanto, las bibliotecas de dicha región no siguen la recomendación. 10.3. Sea X=Precio de los libros en rústica con ilustraciones color. a) En primer lugar, hacemos un contraste sobre µ, con σ desconocida. La hipótesis nula es H0 : µ ≤ 630 4. El valor del estadı́stico de contraste es T = 20 8700. Si tomamos un nivel de significación de α = 00 05, entonces la región crı́tica es T > 10 6706. En consecuencia, rechazamos H0 y, por tanto, los libros en rústica con ilustraciones en color son más caros (tienen un precio medio mayor) que el resto de los libros en rústica. b) En segundo lugar, hacemos un contraste sobre σ 2 , con µ desconocida. La hipótesis nula es H0 : σ 2 ≤ (140 8)2 . El valor del estadı́stico de contraste es V = 750 4821. Si tomamos un nivel de significación de α = 00 05, entonces la región crı́tica es V > 790 0819. En consecuencia, aceptamos H0 y, por tanto, no se puede aceptar que la varianza del precio de los libros en rústica con ilustraciones en color sea mayor que la varianza del precio de todos los libros en rústica. 10.4. Sea X=Número de veces que los artı́culos de medicina son citados durante los cinco siguientes años a su publicación. Hacemos un contraste sobre µ, con σ desconocida. La hipótesis nula es H0 : µ ≤ 60 5. El valor del estadı́stico de contraste es T = 40 7626. Si tomamos un nivel de significación de α = 00 05, entonces la región crı́tica es T > 10 6669. En consecuencia, rechazamos H0 y, por tanto, se citan más los artı́culos de medicina que el resto de artı́culos cientı́ficos (la media del número de citas es mayor). Prof.: Dra. J. Marı́n Fernández. Estadı́stica. Lic. Documentación. Soluciones de los problemas del Tema 10 2 10.5. Sea X=Tiempo empleado en consultar bases de datos por ordenador. Hacemos un contraste sobre µ, con σ desconocida. La hipótesis nula es H0 : µ ≤ 15. El valor del estadı́stico de contraste es T = 20 536486. Si tomamos un nivel de significación de α = 00 05, entonces la región crı́tica es T > 10 7613. En consecuencia, rechazamos H0 y, por tanto, la media del tiempo empleado en consultar bases de datos por ordenador es mayor que 15 minutos. DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 11: Contrastes paramétricos con dos muestras Problemas propuestos 11.1. El precio de los libros de una biblioteca es una variable aleatoria Normal de media 630 3 euros y desviación tı́pica 190 4 euros. Se sospecha que el precio medio de los libros de ciencias fı́sicas es mayor que el precio medio de los libros de ciencias sociales. Para obtener alguna evidencia sobre la sospecha, se selecciona una muestra aleatoria simple de 20 libros de ciencias fı́sicas y otra de 30 libros de ciencias sociales, obteniéndose una media de 570 5 euros para los primeros, y 520 6 euros para los segundos. ¿Podemos afirmar, con un nivel de significación de 00 05, que es cierta nuestra sospecha? 11.2. Se nos ha señalado la posibilidad de que se paguen sueldos distintos a bibliotecarios según el sexo. Presumiblemente, a los hombres se les ha pagado más que a las mujeres. Un estudio de los sueldos anuales durante los cinco años anteriores al actual arroja los siguientes resultados: media muestral cuasidesviación tı́pica muestral tamaño muestral hombres 21.980 1.810 25 mujeres 20.470 2.290 50 A la vista de estos datos, y utilizando un nivel de significación de 00 01, ¿podemos afirmar que el sueldo de los hombres es mayor que el de las mujeres? 11.3. Se les preguntó a 30 matrimonios, elegidos al azar, el número de veces que habı́an ido a alguna biblioteca en los tres últimos meses, siendo los resultados los siguientes: Hombre 12 30 10 20 15 14 11 9 7 5 Mujer 8 11 12 16 10 9 12 10 7 4 Hombre 8 14 20 13 11 7 6 8 15 42 Mujer 10 15 12 19 6 7 7 6 20 35 Hombre 25 12 8 23 14 8 12 27 32 14 Mujer 14 16 10 20 17 10 23 10 27 18 ¿Podemos afirmar que hay diferencia significativa entre los hombres y las mujeres de los matrimonios en cuanto al número de veces que van a la biblioteca? DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA Estadı́stica. Licenciatura en Documentación Prof.: Dra. J. Marı́n Fernández Tema 11: Contrastes paramétricos con dos muestras Soluciones de los problemas propuestos 11.1. Sea X1 =precio de los libros de ciencias fı́sicas y X2 =precio de los libros de ciencias sociales. Hacemos el contraste de comparación de dos medias en el que la hipótesis nula es H0 : µ1 ≤ µ2 . Las muestras son independientes y las varianzas poblacionales se consideran conocidas: σ12 = σ22 = 190 42 . El valor del estadı́stico de contraste es Z = 00 8750. Como el nivel de significación es α = 00 05, entonces la región crı́tica es Z > 10 6449. En consecuencia, aceptamos H0 y, por tanto, no podemos aceptar que el precio medio de los libros de ciencias fı́sicas sea mayor que el precio medio de los libros de ciencias sociales. 11.2. a) En primer lugar, tenemos que hacer un contraste para averiguar si las dos varianzas poblacionales son iguales o distintas (ya que son desconocidas). Es necesario que X1 sea la variable aleatoria sueldo anual de las mujeres bibliotecarias y que X2 sea la variable aleatoria sueldo anual de los hombres bibliotecarios, pues la cuasidesviación tı́pica muestral en las mujeres es mayor que en los hombres. Realizamos, por tanto, el contraste en el que la hipótesis nula es H0 : σ12 = σ22 . Las muestras son independientes y se supone que las dos variables aleatorias son normales. El valor del estadı́stico de contraste es F = 10 6007. Como el nivel de significación es α = 00 01, entonces la región crı́tica es F < 00 4249 ó F > 20 6522. En consecuencia, aceptamos H0 y, por tanto, las varianzas poblacionales son desconocidas pero iguales. b) Hacemos, ahora, el contraste de comparación de dos medias en el que la hipótesis nula es H0 : µ1 ≥ µ2 . Las muestras son independientes y las desviaciones tı́picas poblacionales son desconocidas pero iguales. El valor del estadı́stico de contraste es T = −20 8751. Como el nivel de significación es α = 00 01, entonces la región crı́tica es T < −20 3789. En consecuencia, rechazamos H0 y, por tanto, aceptamos que el sueldo medio de los hombres es mayor que el sueldo medio de las mujeres. 11.3. Sea X1 =número de veces que los hombres han visitado la biblioteca, en los tres últimos meses y X2 =número de veces que las mujeres han visitado la biblioteca, en los tres últimos meses. Hacemos el contraste de comparación de dos medias en el que la hipótesis nula es H0 : µ1 = µ2 . Las muestras son apareadas. El valor del estadı́stico de contraste es T = 10 455832. Si el nivel de significación es α = 00 05, entonces la región crı́tica es T < −20 0452 ó T > 20 0452. En consecuencia, tenemos que aceptar H0 . Por tanto, no hay diferencia significativa entre los hombres y las mujeres en cuanto al número de veces que van a la biblioteca.