Capítulo 2. Muestreo En el capítulo anterior hablamos de que para tomar decisiones en Estadística primero debemos formular una hipótesis a partir de la teoría del investigador. Una vez formulada la hipótesis vamos a necesitar recoger información para comprobar esa hipótesis. Los datos pueden existir de antemano o usted tendrá que recogerlos, en cualquier caso, la calidad de la decisión que usted va a tomar, dependerá de la calidad de los datos. Suponemos que los datos son buenos cuando reflejan la realidad que estamos investigando. En este capítulo estudiaremos el método de muestreo aleatorio simple (m.a.s.), como el concepto más básico de muestreo. La idea central del muestro es que nos ayuda a obtener información acerca del un todo examinando sólo una parte o muestra. Hay otros tipos de muestreo que por tiempo no veremos en este curso: muestreo estratificado, sistemático, por conglomerados, etc. ¿Porqué tomar muestras? Si queremos conocer una población, ¿porqué no tomar una muestra de toda la población? ¿Porqué no hacer un censo? Ejercicio: Considere el proceso de corregir una lectura. Lea la siguiente frase una vez y determine cuantas veces aparece la letra "f". FINISHED FILES ARE THE RESULT OF YEARS OF SCIENTIFIC STUDY COMBINED WITH THE EXPERIENCE OF MANY YEARS1 Número de “efes” : ______________ ¿Cuantas efes encontró? ¿Cuantas hay? Definición: Un Censo es una muestra de toda la población. El Chile se realizan censos de población cada diez años. ¿Cree usted que en el último censo pueden haber existido errores? Si la población es grande un censo puede ser extremadamente caro. También puede ocurrir que la demora en obtener información de un censo haga que la información ya no sea válida cuando la tenemos. Para ejemplificar otra situación imagine que queremos tener información de la duración de lavadoras. En este caso además tenemos que destruir la unidad para obtener la información, por lo que un censo tampoco es posible. Lenguaje de Muestreo Definiciones: Población es el grupo entero de objetos o individuos bajo estudio, de los cuales queremos obtener información. 1 Fuente: "The Deming route to quality and productivity" William Scherkenbach. ASQC Quality Press, 1986. 1 Muestra es una parte de la población de la cual obtenemos información. Unidad es un objeto individual o persona en la población. Variable es una característica de interés medida en cada unidad de la muestra. El tamaño de la población se denota por la letra mayúscula N. El tamaño de la muestra se denota por la letra minúscula n. Tamaño de la población: N = 16 Tamaño de la muestra: n=4 Definiciones: Parámetro es una medida numérica que se calcularía usando todas las unidades de la población. Estadística es una medida numérica que se calcula de las unidades de la muestra. Factor Rh En Chile el 5,3% de la población tiene sangre factor Rh(-). En una muestra aleatoria de 400 sujetos de esa población, se encuentra que un 8,8% tiene factor Rh(-). a) ¿cuál es el valor del parámetro? b) ¿cuál es el valor de la estadística? Ampolletas Suponga que usted esta a cargo de recibir una carga de 1000 ampolletas. Para decidir si acepta la carga revisa 20 ampolletas y cuenta el número de ampolletas que están falladas. Defina en este contexto: - Población - Unidades 2 - Muestra - Variable - Parámetro - Estadística Note que un parámetro es fijo y que la estadística puede variar Calidad de los datos2 En toda medición, pueden existir básicamente dos tipos de errores: aleatorios y sistemáticos. Definiciones: Se define sesgo como un error sistemático. Ej. Balanza mal calibrada. Un método de muestreo se dice sesgado si los resultados que produce difieren sistemáticamente de los verdaderos de una población. Una muestra por conveniencia es una muestra que consiste en unidades de la población que son fáciles de obtener. Una muestra de voluntarios es una muestra que consiste de unidades de la población que eligen responder. Las muestras por conveniencia y de voluntarios son generalmente sesgadas. Tipos de Sesgos Sesgo de selección se produce un sesgo de selección cuando el procedimiento de muestreo tiende sistemáticamente a incluir o excluir algún tipo de unidad de la población. Sesgo de falta de respuesta es la distorsión que se provoca cuando gran parte de la muestra seleccionada no responde o se niega a responder, y estas personas tienden a ser diferentes de los que responden. Sesgo por tipo de pregunta es la distorsión que afecta a la respuesta que se provoca ya sea por la forma de hacer una pregunta o por la forma de preguntarla por parte del entrevistador. 2 Se recomienda leer Capítulo 3 del libro "Bioestadística" de Erica Taucher. Editorial Universitaria, 1997. 3 Métodos de muestreo Definición: Se llama muestreo probabilístico al método de muestreo que asigna a cada unidad en la población una probabilidad (conocida y distinta de cero) de ser seleccionado para la muestra. Tipos de métodos: Muestreo aleatorio simple; Muestreo aleatorio estratificado; Muestreo sistemático; Muestreo por conglomerados, y Muestreo multietápico. Una muestra aleatoria simple de tamaño n es una muestra de n unidades seleccionadas de tal manera que cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada. Muestras de distinto tamaño pueden tener diferentes probabilidades de ser seleccionadas. Para asegurarnos que toda muestra aleatoria simple tenga la misma probabilidad de ser seleccionada necesitamos algún dispositivo confiable de selección de las unidades. Existen métodos alternativos como la selección de fichas de una urna, la selección de papeles numerados de una bolsa y otros. Pero un sistema confiable y seguro que siempre funciona es la tabla de números aleatorios. Tabla de Números aleatorios Una tabla de números aleatorios es una lista de dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 y tiene las siguientes propiedades: 1. Cualquier dígito en cualquier posición de la tabla tiene la misma probabilidad de ser 0, 1, ..., 9. 2. los dígitos en posiciones diferentes son independientes, en el sentido de que el conocimiento de algunos números de la tabla no da información acerca de otros números de la tabla. Usaremos la tabla de números aleatorios para seleccionar una muestra aleatoria simple (m.a.s.) Suponga que tenemos N=50 unidades en la población, saque una muestra aleatoria simple de tamaño n=5. Paso 1: Asigne ETIQUETAS: Dé a cada unidad en la población un número, etiqueta o identificación. Todas las etiquetas deben tener el mismo número de dígitos. Como tenemos 50 unidades y 50 tiene dos dígitos, todas las unidades tienen que tener dos dígitos. 4 Unidad Unidad 1 Unidad 2 Unidad 3 Unidad 4 Unidad 5 Unidad 6 Unidad 7 Unidad 8 Unidad 9 Unidad 10 Ident 01 02 03 04 05 06 07 08 09 10 Unidad Unidad 11 Unidad 12 Unidad 13 Unidad 14 Unidad 15 Unidad 16 Unidad 17 Unidad 18 Unidad 19 Unidad 20 Ident 11 12 13 14 15 16 17 18 19 20 Unidad unidad 21 unidad 22 unidad 23 unidad 24 unidad 25 unidad 26 unidad 27 unidad 28 unidad 29 unidad 30 Ident 21 22 23 24 25 26 27 28 29 30 Unidad unidad 31 unidad 32 unidad 33 unidad 34 unidad 35 unidad 36 unidad 37 unidad 38 unidad 39 unidad 40 Ident 31 32 33 34 35 36 37 38 39 40 Unidad unidad 41 unidad 42 unidad 43 unidad 44 unidad 45 unidad 46 unidad 47 unidad 48 unidad 49 unidad 50 Ident 41 42 43 44 45 46 47 48 49 50 Paso 2: Use la TABLA: Empezando en un lugar escogido al azar lea grupos de dígitos (dependiento del número de dígitos en las etiquetas) de izquierda a derecha, continuando con la línea siguiente cuando se acabe la línea que está leyendo. Si el grupo de dígitos corresponde a una de las etiquetas, ese número identifica a una de las unidades que será seleccionada. Si el grupo de dígitos no corresponde a una de las etiquetas o si ya fue seleccionado, se salta al grupo siguiente. Por ejemplo suponga que el lugar de partida escogido al azar fue la Fila 5, columna 1: FILA 5: 37570 39975 81837 16656 06121 91782 60468 81305 49684 60672 ... 37, 57 (salto), 03, 99 (salto), 75 (salto), 75 (salto), 81 (salto), 83 (salto), 71 (salto), 66 (salto), 56 (salto), 06, 12, y 19. La muestra seleccionada serán las unidades o sujetos con etiquetas: 37, 03, 06, 12, y 19. Muestreo Aleatorio Simple Suponga que nos interesa estudiar la proporción de mujeres en una población. Formen grupos de 10 estudiantes. La población de interés es su grupo. Seleccione una muestra aleatoria simple de tamaño n=3 de su grupo. Pasos: 1. Escriban los nombres de las personas en el grupo. 2. Asignen un número de identificación a cada persona del grupo. 3. Seleccione la muestra usando la tabla de números aleatorios. Tabla: Suponga que la posición de partida de la tabla elegida al azar fue: fila 13, columna 1 5 Denotaremos por P la proporción de mujeres en su población. Número de mujeres en su población ___________ N = _______________ Calcule la proporción de mujeres en su población P número de mujeres N Resultados de la muestra aleatoria simple de tamaño n=3: Número de mujeres en la muestra _____________ Proporción de mujeres en la muestra, p̂ número de mujeres n Pensemos: ¿Parece simple seleccionar una m.a.s.? ¿Es siempre posible? ¿Cuando es difícil? ¿Como será numerar las unidades si el tamaño de la población fuera 78? o 292? o 4000? ¿Será simple usar la tabla o la calculadora o computador? El muestreo aleatorio simple es objetivo o insesgado, pero tiene la desventaja que necesitamos tener una lista completa de la población y eso no es siempre posible. Si quisiéramos tomar una muestra de la ciudad de Talca, ¿qué lista de la población podríamos usar? 6 Muestreo aleatorio estratificado3 Un muestreo aleatorio estratificado se selecciona dividiendo o estratificando la población en subgrupos mutuamente exclusivos (estrato) y tomando una muestra aleatoria simple de las unidades de cada estrato. Para formar la muestra completa se combinan las unidades muestreadas de cada estrato. Subgrupos mutuamente exclusivos implica que cada unidad de la población pertenece a un solo estrato. Formen grupos de 10 estudiantes. Cada grupo necesita tener al menos una mujer o un hombre. La población de interés es su grupo. Pregunta de interés: ¿Cuanto calza? Queremos averiguar el promedio del número de calzado en su población. Pasos: 1. Escriba el nombre de las personas en su grupo. 2. Haga la pregunta a cada miembro de su grupo y escriba la respuesta al lado del nombre. 3. Calcule el promedio de la respuesta en su población. Promedio = SUMA N = ____________________ ¿Este número es un PARAMETRO o un ESTADISTICO? Tome una muestra aleatoria simple de tamaño n=4. Pasos: 1. Asigne una identificación a cada nombre en la lista 2. Use la tabla de número aleatorios (fila 22, columna 10) 3. A quién selecciono de su grupo y cuál son sus respuestas? 4. Calcule el promedio de las respuestas en su muestra aleatoria simple de tamaño n=2 ¿Este número es un PARAMETRO o un ESTADISTICO? Pero sabemos de las diferencias entre el número que calzan los hombres y las mujeres. 3 Sección opcional 7 Muestra aleatoria estratificada Pasos: 1. Liste los hombres y las mujeres de su población separadamente, es decir, forme los estratos. Incluya la respuesta a la pregunta en paréntesis. MUJERES (Estrato 1) HOMBRES (Estrato 2) 2. Designe una identificación a cada unidad en cada estrato. 3. Seleccione una m.a.s. de tamaño n=2 de mujeres (fila 14, col 1) y una m.a.s. de tamaño n=2 de hombres (fila 23, col 2). Registre las respuestas de la muestra. Respuestas de mujeres seleccionadas: ______________________ Respuestas de hombres seleccionados: ______________________ 4. Calcule el promedio de las respuestas de cada estrato separadamente: Estrato 1, Mujeres: Estrato 2, Hombres: Promedio estimado = SUMA = _____________ n Promedio estimado = SUMA = ______________ n 5. Calcule la respuesta global combinando los promedios de los estratos Promedio global: # unidades estrato1 promedioestimado # unidades estrato2 promedioestimado estrato 2 N N estrato1 ¿Este número es un PARAMETRO o un ESTADISTICO? Como es comparado con el promedio de toda la población? ¿Qué facilidades deportivas te gustaría que hubiera en la UTAL? Pensemos: ¿Cuando nos conviene tomar un tamaño muestral distinto en cada estrato? Cuando formamos un estrato, ¿como debe ser la variabilidad dentro de cada estrato y entre los estratos? ¿Es el muestreo aleatorio estratificado un muestreo aleatorio simple? Si o No ¿Porqué? 8