Muestreo Sistemático. Ejercicios. 1.- Los funcionarios de un museo madrileño están interesados en el número total de personas que visitan el lugar durante su período de 180 días cuando una costosa colección de antigüedades está en exhibición. Puesto que el control de visitantes en el museo cada día es muy costoso, se decide obtener estos datos cada décimo día. Dos funcionarios realizan este experimento, obteniendo 2 muestras sistemáticas diferentes, cuya información se resume en la siguiente tabla: (se anotó también la variable zi que indica el número de días en los que se sobrepasó la cifra de 300 visitantes) y Día 3 13 23 ... 173 i =4868, z Nº de visitas 160 350 225 ... 390 i =7, y y 2 i =1411450 Día 10 20 30 ... 180 i =5434, z i =8, y Nº de visitas 152 310 287 ... 718 2 i =1718220 a) Utilizando cada muestra sistemática por separado, estimar el número total de personas que visitan el museo durante el período especificado y hayar un intervalo de confianza del 95%. b) Utilizando la información de las 2 muestras de forma conjunta, estimar y hallar un intervalo de confianza del 95% de . c) Estimar el número de días en que se sobrepasó la cifra de 300 visitantes y calcular un intervalo de confianza del 95%. 2.- Un experimento tiene por objeto estimar la producción total de leche de un búfalo hembra en el período de lactancia. La producción de leche de los cinco primeros días no se considera al corresponder a la segregación de calostro. La lactancia se sabe que dura 300 días y se decidió tomar una muestra de 30 días. La información de que disponemos es la siguiente: (producción en litros) Día seleccionado 1 ? ? ? ? ? ? ? ? 271 Producción 8.1 12 15.2 14 11.25 10.1 9.8 8.75 7.25 4.1 T1=100.55 Día seleccionado 12 ? ? ? ? ? ? ? ? 282 Producción 9.3 13.5 14.4 14.35 9.8 10 8.6 8.4 6.1 3.1 T2=97.55 Día seleccionado 26 ? ? ? ? ? ? ? ? 296 Producción 11.15 14.7 14.6 12.8 10.65 10.6 8.3 7.5 4.3 2.2 T3=96.8 a) ¿Qué días de muestra se han tomado (?)?. ¿Qué tipo de diseño muestral se ha utilizado?. b) Estimar la cantidad total de leche en el período de lactancia. ¿El estimador que has utilizado es equivalente al estimador Τ̂ sis N m μ i , i media en la submuestra i-ésima? (Primero m i 1 obtener el valor de este estimador para ver si la afirmación es cierta y luego justifica). c) ¿Se puede suponer que el total de leche producida es de 3000 litros?. d) Encontrar el tamaño de muestra necesario para que el error de muestreo cometido sea de 27 litros. 1 3.- El fichero cabeza.mat contiene la información correspondiente a 5 medidas de la cabeza (en milímetros) de 200 hombres y 59 mujeres. Las variables son: MFB: Amplitud mínima frontal. BAM: Amplitud de la mandíbula. TFH: Altura facial. LGAN: Longitud desde el entrecejo a la punta de la nariz. LTN: Longitud desde el orificio auditivo al comienzo de la nariz LTG: Longitud desde el orificio auditivo a la base de la barbilla. i) Tomar una muestra sistemática de 30 individuos para estimar la altura media facial de la población. Comparar el resultado obtenido con tomar una m.a.s. del mismo número de individuos. ii) ¿Cuántos individuos habría que tomar en la muestra para que el error de estimación se reduzca un 5% respecto del cometido con los 30 individuos?. 4.- El fichero fraude.mat contiene la información poblacional correspondiente al fraude cometido por tres tipos de empresa. Los datos están recogidos en datos del fichero que tiene tres columnas. La primera corresponde al tipo de empresa (1, 2 o 3), la segunda la cantidad defraudada y la tercera si la cantidad defraudada es superior a 150 (valor 1) o inferior o igual a 150 (valor 0) i) Tomar una muestra de 300 empresas usando muestreo sistemático y estimar: Cantidad total defraudada. Cantidad media defraudad por empresa. Proporción de empresas que defraudan más de 150. Comparar el resultado obtenido con tomar una m.a.s. del mismo número de individuos por estratos y afijación proporcional. ii) ¿Cuántos individuos habría que tomar en la muestra para que el error de estimación se reduzca un 10% respecto del cometido con los 300 individuos para estimar Cantidad total defraudada y la Proporción de empresas que defraudan más de 150?. 5.- El ayuntamiento de Valladolid, para el año 2003, desea estimar, en la provincia de Valladolid, el número medio de infracciones que se cometen en cada una de las obras, el total de infracciones en toda la provincia, la cantidad de dinero total que se va a recaudar en función de las multas cobradas por esas infracciones y la cantidad media que se paga en cada obra debido a las multas impuestas. Se decide considerar el grupo formado por los autopromotores de su vivienda habitual, 500, y el grupo formado por las constructoras, 60. El fichero autopro.mat contiene las siguientes variables de toda la población: Para los autopromotores (sólo tienen su propia obra): pre: Presupuesto de la obra inf: Nº de infracciones mul: Multa cobrada aut: Presupuesto de la obra Nº de infracciones Multa cobrada Para los constructores: obr: Nº de obras que están acometiendo coinf: Nº de infracciones en todas las obras de la constructora comul: Multa cobrada total a la constructora por todas las infracciones cons: Nº de obras… Nº de infracciones… Multa cobrada… i) Observar las variables que pueden determinar el diseño a utilizar y estimar los parámetros de interés tomando un 15% de la población como muestra. ii) Encontrar el tamaño de muestra que hay que tomar para estimar el número medio de infracciones que se cometen en cada una de las obras reduciendo un 5% el error de muestreo cometido con la muestra tomada de autopromotores y un 10% el error de muestreo cometido con la muestra tomada de las constructoras. 2 6.- (Levy-Lemeshov pg. 92) (sistemlevy.doc) Una empresa tiene 162 empleados. Desea estimar el número medio de días perdido por enfermedad por cada empleado. Inicialmente toman seis muestras sistemáticas replicadas de dos individuos cada una con los siguientes resultados: Semilla 10 22 27 48 53 61 Muestra 10, 91 22, 103 27, 108 48, 129 53, 134 61, 142 Nª medio de días perdido 2 4 8 4.5 6 3.5 Encontrar el número de replicas necesario para que la estimación del número medio de días perdidos esté dentro del 20% del verdadero valor. 7.- Cierto Centro Universitario desea conocer una medida que valore la satisfacción de los usuarios potenciales de su Biblioteca. El experimentador decide considerar tres estratos, Alumnos (1182 individuos), Profesores (150 individuos) y P.A.S. (50 individuos). Cuando un individuo es encuestado se le pide que valore del 0 al 10 lo satisfecho que se encuentra globalmente con la Biblioteca. Los datos poblacionales están en el fichero feb03.m Para grabarlo pondremos las siguientes instrucciones en MATLAB: feb03.mat Aparecerán las siguientes variables: alum La primera columna contiene el número de clase, la segunda columna el número de alumnos de cada una de las clases y la tercera columna la nota total obtenida de sumar las puntuaciones de todos los alumnos de esa clase. prof La primera columna contiene el número de orden del profesor, la segunda columna la calificación dada por cada profesor a la Biblioteca. pass La primera columna contiene el número de orden del PASS, la segunda columna la calificación dada por cada PASS a la Biblioteca. Teniendo en cuenta que las clases de alumnos y el PASS están ordenados aleatoriamente, pero los profesores están ordenados por su categoría, primero Catedráticos, luego PTEU y por último PTUN decidir el diseño adecuado para cada estrato y tomar una muestra de 5 clases, de 20 profesores y de 10 PASS para estimar el parámetro de interés. 3