Capítulo 7: Distribuciones muestrales Recordemos: Parámetro es una medida de resumen numérica que se calcularía usando todas las unidades de la población. Es un número fijo. Generalmente no lo conocemos. Estadística es una medida de resumen numérica que se calcula de las unidades de la muestra. El valor de la estadística se conoce cuando tomamos una muestra, pero varia de muestra en muestra variación muestral Inferencia estadística: es el proceso de sacar conclusiones de la población basados en la información de una muestra de esa población. Objetivos de la inferencia: estimación de parámetros, intervalos de confianza y docimasia, test de hipótesis o pruebas de significación estadística. Distribuciones muestrales Una estadística muestral proveniente de una muestra aleatoria simple tiene un patrón de comportamiento (predecible) en repetidas muestras. Este patrón es llamado la distribución muestral de la estadística. Si conocemos la distribución muestral podemos hacer inferencia. Las distribuciones muestrales adoptan diferentes formas según las estadísticas investigadas y las características de la población estudiada. 7.1 Distribución muestral de una proporción muestral La distribución muestral de la proporción muestral es la distribución de los valores de las proporciones muestrales de todas las posibles muestras del mismo tamaño n tomadas de la misma población. Suponga que estamos interesados en conocer la proporción de mujeres en Chile. Nuestro parámetro de interés es: número de mujeres en Chile P= número de habitantes en Chile La población es demasiado grande. Hacer un censo sería demasiado caro. Decidimos estimar el verdadero parámetro a partir de una muestra. La proporción muestral sería: número de mujeres en la muestra pˆ = tamaño de la muestra Supongamos que sabemos que P = 0,5 ¿Qué pasa si tomamos una muestra tamaño n = 20 ? Muestra #1: HMHHHMMMHHHMHMMHHMHM Proporción de mujeres p$ =9/20=0,45 Muestra #2: MMHMHMMHHHHMHHMMMHMM Proporción de mujeres p$ =11/20=0,55 Muestra #3: HHMMMHHMHMHMHMMHHMMH Proporción de mujeres p$ =10/20=0,50 En la práctica el investigador toma una muestra. El conocimiento de la distribución muestral nos servirá de base teórica para hacer inferencia estadística. Para conocer la distribución muestral de una estadística deberíamos considerar todas las posibles muestras de un tamaño n, de una población. En la práctica, podemos simular la distribución muestral aproximada o empírica, de la siguiente manera: 1. Seleccione "muchas" muestras aleatorias de mismo tamaño de una población. 2. En cada muestra calcule el estadístico muestral 3. Determine la distribución muestral aproximada Recuerden que al analizar distribución nos interesa: una 1. Forma (simétrica o sesgada) 2. Posición central - la media de una distribución muestral nos dice si el estadístico es un "buen" (insesgado) estimador del parámetro o es sesgado. 3. Dispersión - nos da una idea del error de muestreo. ¿cuál es la proporción de números pares de la tabla de números aleatorios? Usando tabla de números aleatorios. Asumamos que el 50% de la población es par, es decir P = 0,5 Vamos a tomar 50 muestras de tamaño n = 4 de esta población. Seleccionamos un punto de partida y elegimos 4 números. Supongamos que el punto de partida es Fila 20: columna fila 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 1-5 6-10 10480 22368 24130 42167 37570 77921 99562 96301 89579 85475 28918 63553 09429 10365 07119 51085 02368 01011 52162 07056 48663 54164 32639 29334 02488 81525 29676 00742 05366 91921 00582 00725 69011 25976 09763 15011 46573 48360 93093 39975 06907 72905 91977 14342 36857 69578 40961 93969 61129 97336 12765 21382 54092 53916 97628 91245 58492 32363 37001 33062 72295 20591 57392 04213 26418 04711 69884 65795 57948 83473 11-15 01536 25595 22527 06243 81837 11008 56420 05463 63661 53342 88231 48235 52636 87529 71048 51821 52404 33362 46369 33787 85828 22421 05597 87637 28834 04839 68086 39064 25669 64117 87917 62797 95876 29888 73577 16-20 02011 85393 97265 61680 16656 42751 69994 07972 10228 53988 33276 03427 92737 85689 08178 51259 60268 94904 58586 09998 14346 74103 24200 87308 07351 96423 26432 66432 26422 94305 77341 56170 55293 88604 12908 21-25 81647 30995 76393 07856 06121 27756 98872 18876 17453 53060 70997 49626 88974 48237 77233 77452 89368 31273 23216 42698 09172 47070 13363 58731 19731 24878 46901 84673 44407 26766 42206 86324 18988 67917 30833 26-30 91646 89198 64809 16376 91782 53498 31016 20922 18103 59533 79936 69445 33488 52267 13916 16308 19885 04146 14513 06691 30168 25306 38005 00256 92420 82651 20849 40027 44048 25940 35126 88072 27354 48708 18317 31-35 69179 37982 15179 39440 60468 18602 71194 94595 57740 38867 56865 18663 36320 67689 47564 60756 55322 18594 83149 76988 90229 76468 94342 45834 60952 66566 89768 32832 37937 39972 74087 76222 26575 18912 28290 36-40 14194 53402 24830 53537 81305 70659 18738 56869 84378 62300 05859 72695 17617 93394 81056 92144 44819 29852 98736 13602 04734 26384 28728 15398 61280 14778 81536 61362 63904 22209 99547 36086 08625 82271 35797 41-45 62590 93965 49340 71341 49684 90665 44013 69014 25331 08158 90106 52180 30015 01511 97735 49442 01188 71585 23495 51851 59193 58151 35806 46557 50001 76797 86645 98947 45766 71500 81817 84637 40801 65424 05998 46-50 36207 34095 32081 57004 60672 15053 48840 60045 12566 17983 31595 20847 08272 26358 85977 53900 65255 85030 64350 46104 22178 06646 06912 41135 67658 14780 12659 96067 66134 64568 42607 93161 59920 69774 41688 51-55 20969 52666 30680 00849 14110 21916 63213 18425 58678 16439 01547 12234 84115 85104 29372 70960 64835 51132 94738 88916 30421 21524 17012 10367 32586 13300 92259 64760 75470 91402 43808 76038 29841 33611 34952 56-6 995 191 196 749 069 818 210 849 449 114 855 905 271 202 744 639 449 019 177 195 616 152 641 076 866 870 571 645 665 424 766 658 801 542 378 Resultados si el punto de partida es Fila 20: Muestra Estadístico 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 0705 6976 2833 7870 9998 4269 8066 9176 9881 3602 5185 1461 0488 9161 9509 2562 5581 0448 6639 1245 8582 8143 4609 1723 0168 2/4 4/4 2/4 2/4 1/4 3/4 4/4 1/4 2/4 3/4 1/4 2/4 4/4 1/4 1/4 3/4 1/4 4/4 2/4 2/4 3/4 2/4 3/4 1/4 3/4 Muestra Estadístico 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 9022 9047 3459 1932 2178 3042 1616 6699 9043 2812 5416 4584 9222 4217 4103 4707 0253 0676 4682 6384 5815 1066 4621 5241 5227 3/4 2/4 1/4 1/4 2/4 3/4 2/4 2/4 2/4 4/4 2/4 3/4 3/4 2/4 2/4 2/4 2/4 3/4 4/4 3/4 1/4 3/4 3/4 2/4 2/4 Tabla: Número de pares Proporción muestral Frecuencia 0 1 2 3 4 Total 0/4 = 0,00 1/4 = 0,25 2/4 = 0,50 3/4 = 0,75 4/4 = 1,00 0 10 20 14 6 Proporción de todas las muestras a) ¿Cuál fue la proporción más frecuente? b) Dibuje la distribución empírica. ¿Qué forma tiene? muestral Cada vez que tomamos una muestra tenemos una estimación para el parámetro P . Estas estimaciones varían entre muestras variación muestral Se puede demostrar que si tomamos una m.a.s. de tamaño n de una población con parámetro P , la desviación estándar de p$ σ pˆ = P(1 − P) n es: que depende de la verdadera proporción del tamaño muestral n . P y Si el tamaño muestral es n = 4 y la proporción en la población es P = 0,5 entonces la desviación estándar de p$ es: σ pˆ = P (1 − P ) 0,5(1 − 0,5) = = 0,25 n 4 ¿Que pasa si aumentamos el tamaño muestral? ¿Que pasa con P ? ¿Cómo afecta el valor de P en la desviación estándar? P(1-P) P P(1-P) 0,1 0,09 0,2 0,16 0,3 0,21 0,4 0,24 0,5 0,25 0,6 0,24 0,7 0,21 0,8 0,16 0,9 0,09 0.3 0.25 0.2 0.15 0.1 0.05 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 P 1 Sesgo y Precision Cuando estimamos un parámetro de la población a partir de una estadística muestral, nos va a interesar que la estimación no tenga sesgo y sea precisa. La figura ilustra la diferencia entre sesgo y precisión. Distribución muestral de una proporción Si P representa la proporción de elementos en una población con cierta característica de interés, es decir, la proporción de “éxitos”, donde “éxito” corresponde a tener la característica. Si sacamos muestras aleatorias simples de tamaño n de la población donde la proporción de “éxitos” es P , entonces la distribución muestral de la proporción muestral tiene las siguientes propiedades: 1. El promedio de todos los valores posibles de p$ es igual al parámetro P . En otras palabras, p$ es un estimador insesgado de P . µ =P p̂ 2. Error estándar de la proporción muestral: Es la desviación estándar de las posibles proporciones muestrales y mide la dispersión de la proporción muestral. σ pˆ = P(1 − P) n 3. Si n es “suficientemente” grande, la distribución de la proporción muestral es aproximadamente Normal: P (1 − P ) ) pˆ ~& N ( P, n cuando nP ≥ 5 y n(1-P) ≥ 5 Sangre En Chile el 5,3% de la población tiene sangre factor Rh(-). En una muestra aleatoria de 400 sujetos de esa población, se encuentra que un 8,8% tiene factor Rh(-). a) ¿cuál es el valor del parámetro? b) ¿cuál es el valor de la estadística? c) ¿Cuál es la probabilidad de que en una nueva muestra aleatoria de tamaño 400 de esa población contenga al menos un 8,8% de personas con sangre factor Rh(-)? P( p̂ ≥ 8,8) = d) Suponga que se toma una muestra aleatoria simple de tamaño 10 de la misma población. Queremos calcular la probabilidad de que 8,8% o más tenga sangre factor Rh(-). Distribución muestral de la media muestral La distribución muestral de la media muestral es la distribución de los valores de las medias muestrales de todas las posibles muestras del mismo tamaño n tomadas de la misma población. Considere una población cuya variable aleatoria X es discreta y con la siguiente distribución: La media de la población es µ = Suponga que no conocemos la población o el valor de µ . Podemos tomar una m.a.s. de tamaño n=2 de esta población. ¿Cuál sería una muestra de tamaño n=2 de esta población? ¿Cuál sería la media muestral? ¿Es igual a la media de la población? Si tomamos otra muestra de tamaño n=2, ¿obtendríamos la misma media muestral? Distribución muestral de la media muestral Si sacamos muestras aleatorias de tamaño n de una población con media µ y desviación estándar σ, entonces la distribución muestral de la media muestral tiene las siguientes propiedades: 1.El promedio de todos los valores posibles de medias muestrales es igual al parámetro µ. En otras palabras, la media muestral X es un estimador insesgado de µ. µ =µ x 2. Error estándar de la media muestral: Es la desviación estándar de las posibles medias muestrales. σ = x σ n El error estándar disminuye si el tamaño de la muestra aumenta. 3.Si la población original tiene distribución Normal, entonces para cualquier tamaño muestral n la distribución de la media muestral es también Normal: Si X ~ N ( µ , σ ) ⇒ x ~ N ( µ , σ n ) 4.Si la población de origen no es Normal, pero n es “suficientemente” grande la distribución de la media muestral es aproximadamente Normal: N ( µ , σ ) ⇒ x ~& N ( µ , σ Aún si X no es: n ) Nota: - Un tamaño de 30 es considerado suficiente. - El resultado en (4) se conoce como el Teorema del Límite Central. Suponga que X = peso de carga de camionetas en kilos, tiene distribución normal con media = 300 k y varianza = 25. Se toma una muestra aleatoria de 25 camionetas cargadas y se calcula la media muestral. Esquema de las distribuciones de la variable aleatoria X y de la media muestral: Distribution of X N(300, 1 ) Distribution of X N(300,25) 285 290 295 µ =30 300 305 310 315 Suponga que X = la edad de las madres en los nacimientos en Chile el año 1995, tiene distribución normal con media = 26,5 años y desviación estándar 6,3 años. a) Describa la distribución de la edad de la madre. b) ¿Cuál es la probabilidad de que una madre elegida al azar tenga más de 30 años? c) Suponga que tomamos una muestra aleatoria de n=25 madres ¿cuál es la probabilidad de que la media muestral sea mayor a 30? d) ¿porqué las respuestas en (b) y (c) son distintas?