Muestreo Introducción • Un aspecto central en la Estadística es la Inferencia. En ella queremos aproximar características de una población en base a lo que observemos en una muestra representativa de ella. • Para esto supongamos que tenemos un población física a la cual queremos medir cierta característica (por ejemplo su ingreso mensual), pero es imposible o muy difícil (como usualmente ocurre en la realidad) hacer un censo. Podemos entonces optar por seleccionar al azar n individuos (u objetos) de esta población para luego medir sus ingresos Muestra Población Población • Formalmente, la población de una variable aleatoria X se define como el conjunto 𝑥, 𝑓𝑋 (𝑥) /𝑥 ∈ 𝑅𝑋 donde f(x) es la función de probabilidad o densidad. • La función de probabilidad depende de parámetros. • Ejemplo: Binomial depende de n y p. • Ejemplo: Normal depende de la media y varianza Muestra aleatoria • A los valores X 1 , X 2 ,..., X nque esta característica (o variable X) pueda tomar en los elementos físicos de la población se le llama una muestra aleatoria (m.a) de tamaño n de X. • Note que los elementos de la m.a. son variables aleatorias, pues sus valores sólo se conocerán hasta después de ser observados. Más aun, se asumen que son independientes y por supuesto todos con la misma distribución de X. Muestra Aleatoria - Definición Una muestra aleatoria de tamaño n de la variable aleatoria X, es un conjunto de n variables aleatorias X1, X2,…, Xn independientes y con la misma distribución que la variable aleatoria X (iid). Así, dada una variable aleatoria X con E(X) = y V(X) = 2; si X1, X2,…, Xn es una muestra aleatoria de X, entonces E(Xi) = , V(Xi) = 2 (i = 1, 2,…, n) Estadística (estadístico) • Una estadística es cualquier función T= 𝑔 𝑋1 , … , 𝑋𝑛 que solo depende de las variables aleatorias de una muestra aleatoria. • Una estadística es una variable aleatoria. Distribución muestral • Es la distribución de probabilidades de una estadística. Estadísticas de Orden: Distribuciones de Valor Extremo Estadísticas de Orden: Distribuciones de Valor Extremo EJERCICIO 1 En una central telefónica atienden 15 operadores. Ellos trabajan 8 horas por día y solo pueden interactuar con los clientes brindando información acerca del servicio que ofrece la empresa, pero no atendiendo quejas. En caso un operador reciba una queja este lo redirigirá automáticamente a su supervisor. Suponga que las llamadas para cada uno de los operadores se presentan independientemente y que se tiene una probabilidad 0.3 de que cualquiera de estas llamadas sea una queja. a) ¿Con qué probabilidad el primer operador en recibir una queja en la central lo recibirá en su segunda llamada del día? b) Si Xi denota al número de llamadas que el operador i recibe en un día hasta que le llegue una primera queja, halle e interprete el valor esperado de la v.a. Y = min(X1, X2,…, X15). Formación de Distribuciones Muestrales POBLACIÓN (N) Variable de interés : X Muestra 1 Promedio 1 Variancia 1, etc. Muestra 2 Muestreo con o sin reemplazo Muestra 3 Promedio 2, Promedio 3, Cálculo Variancia 2, de valores Variancia 3, etc. etc. estadísticos Distribución de Promedios Muestrales, Distribución de Variancias Muestrales, etc. ... ... Muestra K Promedio K, Variancia K, etc. Distribución de la media muestral Sea X1, X2,…, Xn una muestra aleatoria de tamaño n de la variable aleatoria X tal que E(Xi) = , V(Xi) = 2 (i = 1, 2,…, n). n Si se define el estadístico media muestral como entonces se cumple que: Media : E (X ) = X = Varianza: ( ) V X = = 2 X 2 n X= X i =1 n i Convergencia Ley de los Grandes Números EJERCICIO 2 Se desea aproximar (estimar) el ingreso medio m de los microempresarios del sector metal mecánico, a partir de la media X de una muestra aleatoria de n microempresarios tomados al azar. Se desea que con una probabilidad de 0.95 o más, el error de estimación |X-μ| sea inferior a las 5 unidades monetarias. De estudios previos, se sabe que la desviación estándar poblacional del ingreso es σ = 25 u.m. ¿Cuál es el tamaño de muestra n que logra esto? Teorema Central del Límite El TLC es uno de los teoremas más utilizados porque nos dice que la suma de variables independientes de cualquier distribución tiene aproximadamente un distribución Normal. Debido a esto, por ejemplo la distribución Binomial se pueden aproximar por una normal para un número grande de eventos. También la adición de números generados por cualquier otra distribución forma una distribución aproximadamente normal. Si Teorema Central del Límite X 1 , X 2 ,..., X n son v.a independientes donde cada X i ~ F ( , ) siendo F una distribución cualquiera no 2 necesariamente normal. Entonces para n suficientemente n grande (n ≥ 30): aprox S = X i ~ N (n , n 2 ) i =1 n Así también X= X i =1 n i aprox ~ N ( , 2 n ) Distribución de la media muestral • Si la población X sigue una distribución normal, entonces ( X N , X2 ) para n ≥ 2. • Si el tamaño de muestra n ≥ 30, entonces ( X N , X2 ) por Teorema Central del Límite EJERCICIO 3 Suponga que los pesos de las bolsas de fideos se distribuyen en forma normal con media 225 gramos y desviación estándar 25 gramos. Halle la probabilidad de que al elegir al azar 20 bolsas se obtenga un peso promedio mayor que 215 gramos. EJERCICIO 4 El peso de un artículo es una variable aleatoria X (en gramos) que tiene la siguiente función de densidad: f(x) = = 1/2 0 para 10 x 12 de otro modo. Si se eligen al azar 50 artículos, halle la probabilidad de que el promedio de la muestra supere a la media de su distribución en no más de 3 gramos. Aplicaciones del T.L.C • La distribución de una variable aleatoria X ~ B(n, p) se puede aproximar por una distribución N(np, npq) siempre y cuando n ≥ 30. La aproximación es buena si, además, se verifica que np es mayor a 5 y nq = n(1-p) es mayor a 5. • La distribución de una variable aleatoria X~Pas(r, p) se puede aproximar por una distribución N(r/p; rq/p2) siempre y cuando r ≥ 30. • Bajo ciertas condiciones, otras distribuciones como la hipergeométrica o la Poisson también se pueden aproximar por una distribución normal. La aproximación de la Binomial por la Normal Como ejemplo del TLC, podemos citar la siguiente aproximación. Consideremos una v.a. X ~ B(n,p) , con n grande. Entonces el TLC implica que donde la segunda igualdad se obtiene al dividir todo entre n y representa la proporción de éxitos en la muestra. Distribución de la proporción muestral Sea X1, X2,…, Xn una muestra aleatoria de tamaño n de la variable aleatoria X con distribución de Bernoulli con parámetro p. n Se define el estadístico proporción muestral como entonces se cumple que: Media : E (P ) = p P= X i i =1 n p(1 − p ) pq = Varianza: V P = = n n ( ) 2 P • La proporción muestral representa la proporción de éxitos observados en una muestra de tamaño n. • Por el teorema central del límite, si el tamaño de muestra n tiende al infinito, entonces se distribuye aproximadamente normal. Ejercicio 7 En una ciudad, el 40% de las familias usan el detergente “H”. a) Si se eligen al azar 10 familias, halle la probabilidad que más del 80% de los seleccionados usen el detergente “H”. b) Si se seleccionan al azar 100 familias, ¿cuál es la probabilidad de que más de la mitad utilicen el detergente “H”?