MATEMÁTICA Y ESTADÍSTICA Trabajo Práctico No. 8: Muestreo y Distribuciones de los estadísticos muestrales Contenido: Muestreo: razones para el muestreo, muestreo aleatorio simple. Uso de tablas de números aleatorios. Naturaleza aleatoria de los estadísticos muestrales: distribución de las medias muestrales, distribución de la diferencia de dos medias muestrales. Cálculo de probabilidades asociadas a estos estadísticos. Lecturas recomendadas: Koch y Link, 1970. Cap. 3:64-78. Di Renzo, et al. 2000. Cap.4:105-125. Santaló, 1970. Cap.7:87-90; Cap.8:91-103; Spiegel, 1991. Cap.8: 186-207. Mendenhall W., Wackerly D. D. Scheaffer R. L. 1990 Cap. 6 y 7. Zar, H.J. 2009 Cap. 6. Idea principal En términos muy generales un muestreo se realiza con el objetivo de estimar o inferir propiedades de una población a partir de una fracción de ella, la muestra. Para que esto sea posible la muestra debe ser representativa, es decir debe reproducir las características de la población. La selección de los elementos que conformen la muestra debe realizarse de modo tal, que cada uno de sus elemento debe tener la misma probabilidad de ser elegido. Los métodos para seleccionar una muestra representativa son numerosos, dependiendo del tiempo, dinero y experiencia, disponibles para tomar una muestra, a lo que se agrega la naturaleza de los elementos individuales de la población. Según sea la manera utilizada para seleccionar los elementos de la muestra, es posible clasificar los métodos de muestreo como: Muestreo de juicio: cuando sus elementos son seleccionados mediante juicio personal, basado en los puntos de vista subjetivos, en cuyo caso la teoría de la probabilidad no se puede emplear. Muestreo Aleatorio, probabilístico o estadístico: cuando la manera de selección de los elementos de la muestra es tal, que cada elemento de la población tiene igual oportunidad de ser elegido. En estos casos la selección de los individuos que forman la muestra es objetiva y el error muestral puede ser medido en términos de probabilidad bajo la curva normal. Los tipos comunes de muestreo aleatorio son el muestreo aleatorio simple, muestreo sistemático y muestreo estratificado. Para el desarrollo del TP se requiere el uso de la tabla de Números Aleatorios y de las tablas de probabilidades “z” y “t” de Student. Primera parte: MUESTREO 8.1) Un geólogo está interesado en estimar las reservas de cristales de Espodumeno de una pegmatita y necesita estimar el tamaño promedio (a partir de la superficie aflorante) de los cristales. Como le resulta imposible medir todos los cristales debe optar por un método de muestreo que le permita realizar la mejor estimación posible de las reservas. Para ello le proponemos que realice un experimento para analizar que tipo de muestreo es mejor y le recomiende su uso al geólogo. MÉTODO 1: muestreo aplicando el criterio propio o muestreo de juicio propio a) Extraer (en el sentido de observar y medir) una muestra de los cristales que considera “representativos”. Para ello mirar durante 10 segundos la figura adjunta que representa los cristales aflorantes y arriesgar una cifra para el promedio del área de los cristales. La unidad de medida es el cuadrado unitario equivalente a 100 cm 2; por ejemplo un rectángulo de 3 filas por 4 columnas tiene 12 cuadraditos, el área representa una superficie de 1200 cm 2. Anotar el resultado de la inspección visual. b) Muestreo de juicio: Primera muestra: seleccionar 5 cristales, que a su juicio sean representativos de la población de cristales. Anotar el número de cada uno de los 5 (se encuentra al pie de ellos) y calcular su área. Calcular el área promedio de los 5 cristales. Anotar el resultado. Segunda muestra: repetir el procedimiento anterior pero con 10 cristales. Calcular el promedio del área de los 10 cristales. Anotar el resultado. 35 MATEMÁTICA Y ESTADÍSTICA 1 2 6 3 11 5 4 15 22 14 50 7 10 8 31 9 28 19 17 13 68 20 46 36 30 41 57 45 40 34 60 47 12 18 27 33 37 59 39 16 49 25 21 26 48 38 23 32 24 66 29 35 42 55 56 54 58 43 44 62 67 80 73 74 63 75 52 53 51 64 88 84 87 81 95 99 90 77 85 83 72 79 78 100 70 69 61 76 65 71 82 89 91 86 93 98 96 92 97 94 2 Fig. 8.1: Superficie esquemática de una pegmatita con cristales de espodumeno. (1 cuadradito = 100 cm ) MÉTODO 2: muestreo aleatorio c) MUESTREO ALEATORIO SIMPLE: Tomar (en el sentido de observar y medir) una muestra de tamaño 5 y una de tamaño 20. Para el muestreo, escoger los números del 1 al 100 utilizando la tabla de números aleatorios. Los tres muestreos deben ser independientes por lo tanto no reutilizar los datos del muestreo previo. Calcular la media y la desviación estándar para cada uno de las muestras tomadas. d) MUESTREO SISTEMÁTICO: Realizar un muestreos sistemáticos tomando una muestra de tamaño 5 y otra de tamaño 20. Para ello tomar los datos de un cristal cada 20 y cada 5 cristales respectivamente, escogiendo el primero de forma aleatoria. Ejemplo: para el muestreo de n=5, si el primer cristal a muestrear es el tercero, el siguiente será 20+3, luego el 20 x2+3 hasta completar el tamaño de la muestra. Calcular la media y la desviación estándar para cada uno de las muestras tomadas. Para analizar las consecuencias de la selección de uno u otro método y del tamaño de la muestra; 1) Grafique, para cada muestreo, los valores de la media en función del tamaño de la muestra. 2) Grafique, para cada muestreo, los valores de la desviación estándar en función del tamaño de la muestra. 3) Calcular el promedio y el desvío estándar de los 100 cristales (la población). Utilice los datos poblacionales de la tabla de frecuencias. Comparar para cada tipo de muestreo y tamaño de la muestra con el valor de la media poblacional ¿Cuál es el muestreo que produce el menor sesgo? Dadas las estimaciones con n=5 y n=20 ¿Cuál es más precisa? Datos poblaciones: 2 2 2 Tamaño (cm ) Frecuencia Tamaño (cm ) Frecuencia Tamaño (cm ) Frecuencia 100 16 600 6 1500 1 200 2 800 8 1600 10 300 6 900 5 1800 5 400 16 1000 7 500 8 1200 10 36 MATEMÁTICA Y ESTADÍSTICA Segunda parte: DISTRIBUCIONES DE LOS ESTADÍSTICOS MUESTRALES Para poder estimar los parámetros poblacionales ( y ) a partir de los estadísticos muestrales, no sólo se requiere haber efectuado un muestreo representativo, sino también conocer las relaciones entre estadísticos muestrales y parámetros poblacionales. Hemos visto a partir de los experimentos realizados, que los estadísticos son variables aleatorias y como tales tienen una distribución asociada. Conocer la distribución de la variable media muestral y varianza muestral es lo que nos permite hacer inferencias de los parámetros poblacionales. 8.2) En la tabla que se presenta a continuación se entregan los resultados de 9 muestras más de tamaño 5 y de tamaño 20 obtenidas con el método de muestreo aleatorio simple. n=5 Muestra 1 660 X S 215,4 2 440 542,6 3 680 511,5 4 780 231,5 5 720 470,7 6 560 392,9 7 760 480 8 420 298,3 9 840 581,7 2 670 501,7 3 755 737,5 4 890 581,2 5 755 482,8 6 685 534,4 7 955 560,5 8 830 551,6 9 755 538,5 S/ n n=20 Muestra 1 685 X S 368,9 S/ n a) Agregar a la tabla correspondiente los resultados del muestreo que usted realizó en el ejercicio 8.1 para n=5 y n=20. b) Para cada una de las 10 muestras de tamaño n=5 y n=20 calcular la media de la distribución de medias muestrales, es decir, su nueva variable son las medias muestrales. Calcular el error típico (S/ n ) de cada una de las distribuciones de medias muestrales. c) Comparar los resultados entre sí y con el desvío estándar de los 100 datos. Si usted tuviera que realizar la estimación de reservas de Espodumeno realizando un muestreo, ¿cuál de los procedimientos anteriores seguiría? Justifique a partir de los resultados. 8.3) La explotación de la pegmatita en sus diferentes zonas requiere estimar: a) La diferencia de las medias para dos de las muestra de tamaño 5 y dos de las de tamaño 20 del ejercicio 2. b) El error típico de la distribución de diferencia de medias. c) La probabilidad de encontrar una diferencia mayor o igual de 700, dado que ambas muestras provienen de la misma población. d) ¿A qué tipo de distribución de probabilidades se ajusta la distribución de diferencia de medias? e) ¿Utilizaría la misma distribución de probabilidades para el caso de tamaño 5 y el de tamaño 20? f) ¿Existe alguna relación entre los errores típicos de las distribuciones correspondientes a los distintos tamaños? ¿Qué efecto se observa sobre las probabilidades calculadas en el punto c? 8.4) A partir de los datos del ejercicio 7.3 que tiene como variable la precipitación en Chascomús, se toma una muestra de 10 años y se determina el valor medio de la precipitación. a) Grafique en forma aproximada la función de densidad de probabilidad de la variable “precipitación media de una muestra de extensión 10”. 37 MATEMÁTICA Y ESTADÍSTICA b) Calcule la probabilidad de que al elegir una muestra de tamaño 10, el valor de la media se encuentre entre 790 y 1110 mm. c) ¿Cuál es la precipitación media de una muestra de 10 años tal que la probabilidad de obtener un valor mayor que él, valga 0,01? d) Compare los resultados obtenidos en los puntos anteriores con los correspondientes al ejercicio citado. 8.5) Los siguientes son datos provenientes de la medición de la porosidad (milidarcies) sobre el muestreo efectuado en 2 pozos, x1 10,125 x2 12,245 S12 7,465 S22 8,855 n1 = 80 n2 = 60 a) Suponiendo que ambas muestras provengan de la misma población: ¿Cuál es la probabilidad de encontrar una diferencia tan grande (mayor o igual) como 5? ¿Cuál es la probabilidad de encontrar una diferencia tan pequeña (menor o igual) como 1? ¿Cuál es la probabilidad de encontrar una diferencia de medias entre 3 y 4,3? b) Suponiendo que ambas muestras no provengan de la misma población responda las mismas preguntas del inciso a. Ejercicios suplementarios 8.6) Suponiendo que los tiempos reiterados de lecturas en una “estación total” tuvieran una distribución normal con promedio de 5,9 segundos y una desviación estándar σ de 0,09 segundos, a) ¿Cuál es la probabilidad de que al efectuar 10 lecturas, el tiempo promedio de lectura sea mayor que 5,79 segundos? ¿Cuál es el tiempo promedio de diez lecturas tal que, la probabilidad de obtener un valor menor que él sea 0,10? c) ¿Cuál es el valor por debajo del cual está el 99% de los valores posibles de desviaciones estándar muestrales de una muestra de tamaño 10? 8.7) Un estudio sedimentológico se centra en los minerales pesados, específicamente en el porcentaje de granos de granates que se encuentran en un delgado estrato de areniscas que está expuesta sobre un área limitada. La arenisca es delgada y su espesor puede ser considerado uniforme. Los granates están presentes en el material de relleno de pequeños canales de 5 cm de ancho que se extienden desde el piso al techo del estrato. El terreno es sumamente escarpado y solamente se puede acceder en sectores limitados de 5 quebradas (ver Figura). Los afloramientos tienen las siguientes longitudes: en la quebrada 1 es de 800 m; en la 2 de 1200 m; en la 3 de 400 m; en la 4 de 640 m y en la 5 de 960 metros, conforman un total de 4000 m de afloramientos. Se tomarán muestras del sedimento sólo en 6 de los pequeños canales presentes en el estrato. Con una piqueta se limpiará el material meteorizado descartándolo, luego se recogerá todo el sedimento que se obtiene de cavar una canaleta de 5 cm de ancho por 5 cm de espesor y por 1 metro de largo aflorante (material de relleno de los pequeños canales). Un estudio preliminar indica que los granates son suficientemente abundantes por lo que puede utilizarse como aproximación un modelo normal. 38 MATEMÁTICA Y ESTADÍSTICA Área inferida de afloramiento y ocurrencia del lente de arenisca. Los afloramientos de arenisca están numerados. Las X son afloramientos de otros tipos de roca que permiten delinear los límites de la lente. Razones de costo y tiempo limitan la toma de muestras al sedimento de 50 canaletas (n = 50). a) b) c) d) e) ¿Cúal es la población geológica de este estudio? ¿Cuál es la población objetivo? ¿Cuál es la variable del estudio? ¿Cuántas unidades de muestreo conforman la población a ser muestreada? Si se sigue un plan de muestreo al azar. ¿En qué lugares debería tomar muestras? Explique el procedimiento y grafique la ubicación de las muestras en el afloramiento 1. f) Si se tuvieran fuertes razones para sospechar que el promedio de granates es diferente en cada afloramiento pero que la varianza es la misma. Explique que procedimiento utilizaría para realizar el muestreo. g) Si las evidencias de campo sugieren que existe variación vertical en el contenido de granates, que procedimiento de muestreo utilizaría. h) Si el plan de muestreo es sistemático, indique cuantas muestras deberán tomarse en cada afloramiento y cuál sería la distancia entre muestras sucesivas. Grafique la ubicación de las muestras en el afloramiento 1. 39