Muestras aleatorias. Distribuciones en el muestreo. Introducción Noción y tipos de muestras Estadísticos o Estimadores Principales Distrib. en el muestreo Teorema Central del Límite Ejercicios Introducción Los análisis estadísticos que se realizan en el mundo real tienen como objetivo estudiar las propiedades características de las poblaciones (cuyos individuos pueden ser personas, animales o cosas). Pero estudiar todos los individuos de la población supone: • Elevados costes económicos • Mucho tiempo de trabajo • Errores de medición • En algunos casos, la destrucción del elemento objeto del estudio (vida media de un motor, tiempo de duración de determinado tipo de cubiertas de automóvil,…) Se recurre entonces a considerar conjuntos de elementos representativos de dicha población, llamadas muestras, cuyas propiedades nos permiten inducir las propiedades que nos interesan de la población. El estudio de poblaciones mediante muestras adecuadas tomadas de ellas constituye la llamada Inferencia Estadística, Estadística Inductiva, Teoría de la Estimación o Teoría de Muestras 1 Introducción Para inferir resultados de las poblaciones a partir de datos de las muestras cabe distinguir dos formas generales de actuar: Estimación: Entenderemos por estimación de un parámetro poblacional al cálculo del valor de este a través de una muestra. Por ejemplo, si pretendemos determinar el valor de la media poblacional, podríamos calcular la media de la muestra elegida y atribuir este valor a aquella. Para que esta estimación sea correcta debe cumplir ciertas condiciones. Prueba o contraste de hipótesis: En este caso se realiza una conjetura (hipótesis) sobre el valor del parámetro poblacional desconocido, basándonos en informaciones o conocimiento previo del problema y se trata de elaborar una regla que nos permita dilucidar sobre su validez. Esta regla se denomina contraste o test de la hipótesis. Ambas formas de complementarias. actuar para producir una inferencia son Noción y tipos de muestras Un punto clave en el proceso de inferencia es la elección de la muestra, pues los resultados de la inferencia serán tanto mejores cuanto más representativa sea esta de la población de partida. Existen varias formas de seleccionar muestras de las poblaciones: Muestra aleatoria: cuando los elementos de la población se eligen de forma aleatoria, usando cualquier mecanismo de azar aleatoria simple (m.a.s.): Se garantiza que todos los individuos de la población tengan la misma probabilidad de ser elegidos en la muestra y que los miembros de esta se elijan de forma independiente. sistemática: se obtiene eligiendo al azar, mediante m. a. s., un elemento de los k primeros (xi). El resto de los elementos muestrales vendrán dados por xi+k, xi +2k,…. Siendo k el entero más próximo a N/n, donde N es el tamaño de la población y n el de la muestra. estratificada: se dividen los elementos de la población en clases o estratos (edad, renta, etc…) y dentro de cada uno de ellos se eligen los elementos por m. a. s. o sistemático. Muestra no aleatoria: Se seleccionan los individuos de forma subjetiva (opinática), lo que puede introducir cierto sesgo a los resultados obtenidos. 2 Noción y tipos de muestras Nosotros supondremos a partir de ahora que utilizamos siempre el muestreo aleatorio simple: Para seleccionar una muestra aleatoria simple de tamaño n de una población que sigue una distribución f(x), se utilizará cualquier mecanismo de azar (lanzar una moneda, sacar bolas numeradas, …) n veces, de forma independiente y se define una variable aleatoria Xi: i=1,2,...,n, que representa la medición o valor muestral iésimo que se observe. Las variables aleatorias X1, X2, ..., Xn (o la variable aleatoria multidimensional (X1,X2,...Xn)), constituirán entonces una muestra aleatoria simple de la población f(x) con valores numéricos x1, x2, ..., xn Debido a las condiciones idénticas bajo las cuales se seleccionan los elementos de la muestra, es razonable suponer que las n variables aleatorias X1, X2, ..., Xn son independientes, y que cada una tiene la misma distribución de probabilidad f(x). Esto es, las distribuciones de probabilidad de X1, X2, ..., Xn son, respectivamente, f(x1), f(x2), ..., f(xn) y su distribución de probabilidad conjunta es: f(X1,X2, ... Xn) = f(X1).f(X2)....f(Xn) . Estadísticos o Estimadores Un parámetro es una caracterización numérica de la distribución de la población (esperanza, varianza,…). Es un valor fijo y desconocido, puesto que para conocerlo necesitaríamos estudiar toda la población. Como los parámetros poblacionales son difíciles de obtener directamente, se recurre a los estadísticos o estadigrafos para estimarlos. Un estadístico no es más que una función de las variables aleatorias que constituyen la muestra y que no contiene ningún valor desconocido. Es una caracterización numérica de la muestra (media, varianza, …). Su valor no es fijo, sino que depende de la muestra particular seleccionada. Dada una m.a.s. X1, X2, ..., Xn, de una población en la que se estudia la variable aleatoria X, se define Y = H(X1, X2, ..., Xn), donde H es cualquier función real, como un estadístico o estadigrafo, que, para cada realización de la muestra, definida por el n-tuplo (x1, x2, ... xn) toma un valor diferente y = H(x1, x2, ..., xn). 3 Estadísticos o Estimadores De acuerdo con esta definición un estadigrafo es una variable aleatoria que, como tal, tiene una distribución de probabilidad (con su media, su varianza, etc…), que se conoce como distribución en el muestreo o distribución muestral. Así, si el estadístico es la media muestral, podremos hablar de la distribución en el muestreo de la media muestral, y de la media o esperanza de la distribución en el muestreo de la media muestral. La distribución muestral de un estadístico depende del tamaño de la población, del tamaño de las muestras y del método de selección de estas últimas. En el resto de este tema se estudiarán varias de las distribuciones muestrales de uso más frecuente en Estadística. Las aplicaciones de estas distribuciones muestrales a problemas de inferencia estadística se verán en los temas siguientes. Estadísticos o Estimadores Ejemplo: Tenemos una población con los siguientes N = 3 elementos: X = {1, 2 y 3}. Donde µ =2 σ2 = 0,67. Se extraen muestras de n = 2 elementos: Con reposición, tenemos 9 posibles muestras: (1, 1); (1, 2); (1, 3); (2, 1); (2, 2); (2, 3); (3, 1); (3, 2); y (3, 3). Sin reposición, tenemos 6 posibles muestras: (1, 2); (1, 3); (2, 1); (2, 3); (3, 1); y (3, 2). En cada una de las muestras pueden calcularse los correspondientes estadísticos descriptivos: Por ejemplo, con reposición: Las medias muestrales ( X) serían: 1; 1,5; 2; 1,5; 2; 2,5; 2; 2,5; y 3 Las varianzas muestrales (S2) serían: 0; 0,25; 1; 0,25; 0; 0,25; 1; 0,25; y 0 4 Estadísticos o Estimadores Por tanto, los estadísticos son variables aleatorias que pueden adoptar diferentes valores y que tienen su propia distribución de probabilidad. En el ejemplo vemos que X puede tomar 5 posibles valores y que la probabilidad que corresponde a cada uno de ellos (f (X i), su distribución) es: No es necesario construir la distribución de un estadístico (p.e. de X ) en todos los casos ya que cada estadístico tiene su propia distribución muestral conocida. Principales Distrib. en el muestreo Las distribuciones muestrales de uso más frecuente en Estadística que aquí estudiaremos serán: DISTRIB. MUESTREO Media Muestral X Proporción Muestral p Cuasivarianza muestral S2 Diferencias y sumas 5 Principales Distrib. en el muestreo Distribución de muestreo de la media muestral: Esta estadística tiene un papel muy importante en problemas de toma de decisiones para medias poblacionales desconocidas. Supóngase que se toma una muestra aleatoria de n observaciones de una población (con cualquier distribución) con media µ y con varianza finita σ2. Cada observación Xi : i=1, 2, ..., n, de la muestra aleatoria constituye una variable aleatoria independiente, con la misma distribución que la población que está siendo muestreada. (E[Xi] = µ; V(Xi) = σ2). Entonces, la estadística: + + ...+ X n X = X1 X2 = n n 1 ∑n X i i=1 se define como la media de las n v.a.i.i.d. o, sencillamente, media muestral. Nótese que una vez que se conocen las realizaciones x1, x2, ..., xn de X1, X2, ..., Xn, respectivamente, la realización x de X se obtiene promediando los datos muestrales. Principales Distrib. en el muestreo La media (esperanza) de la distribución de esta media muestral, que se simboliza por µ es la misma que la media de la población, esto es: x 1 1 n 1 n E [X ] = µ X = E ∑ xi = ∑ E [X i ] = ⋅ n ⋅ E [X ] = E [X ] = µ n n i =1 n i =1 La varianza de la distribución de la media muestral, que se simboliza por σ , es igual a la varianza de la población σ2 dividida por el tamaño n de la muestra. Esto es: 2 x 1 n 1 2 n 1 xi = 2 ∑ xi = 2 σ ∑ i =1 n i =1 n n σ X2 = σ 2 n ∑ σ X2 = i =1 i 1 σ2 2 n σ ⋅ ⋅ = n2 n La desviación típica (error típico) de la distribución de la media muestral sería: σ X = σ X2 = Ver ejemplo inicial σ n 6 Principales Distrib. en el muestreo Si la variable original sigue una distribución Normal, la media muestral sigue también una distribución Normal X ∈ N (µ ,σ 2 ) ⇒ ( X ∈ N µ ,σ 2 n ) Si la variable original sigue una distribución cualquiera, pero el tamaño de la muestra es suficientemente grande (≥ 30), dado que la media muestral es igual a la suma de variables independientes de igual media y varianza, aplicando el Teorema Central del Límite (que veremos a a continuación), podemos decir que el estadístico media muestral se distribuye también según una Normal, como antes. Principales Distrib. en el muestreo Ejemplo: El CI de los alumnos de un centro especial de se distribuye normalmente con media 80 y desviación típica 10. Si extraemos una muestra aleatoria simple de 25 alumnos: a) b) c) d) Si se extrae un sujeto al azar, ¿Cuál es la probabilidad de que obtenga como mínimo una puntuación en CI de 75? ¿Cuál es la probabilidad de que su media aritmética sea mayor de 75? ¿Cuál es la probabilidad de que su media aritmética sea como máximo 83? ¿Qué valor debería tomar la media aritmética para que la probabilidad de obtenerlo en esa muestra sea como máximo 0,85? 7 Principales Distrib. en el muestreo Principales Distrib. en el muestreo Distribución en el muestreo de proporciones: Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito) es p, mientras que la probabilidad de que no ocurra es q=1-p. (Por ejemplo todas las posibles tiradas de una moneda, en la que la probabilidad de cara es p=1/2). Esta población sigue una distribución de Bernoulli. Queremos estimar la proporción de éxitos poblacional (proporción de caras que han salido en todas las tiradas posibles). Para ello consideramos todas las posibles muestras de tamaño n de tal población, y para cada una de ellas determinamos la proporción muestral de éxitos p̂, que viene dada por: n X + X 2 + ...+ X n X pˆ = 1 = = n n ∑X i i=1 n donde cada Xi se distribuye como una Bernoulli(p). X = nº de éxitos en n intentos, por lo que X ∈ B(n,p), cuya media sería n.p, y desviación típica sería npq 8 Principales Distrib. en el muestreo La media (esperanza) de la distribución de esta proporción muestral, así como su varianza y su desviación típica (error típico) vienen dadas por las siguientes expresiones: p⋅q p⋅q E ( pˆ ) = p ⇒ ⇒ σ p2ˆ = σ pˆ = n n La distribución en el muestreo del estadístico proporción muestral de éxitos seguiría una Binomial, cuya media y varianzas son los indicados arriba, que no es más que el resultado de dividir por n los correspondientes a la distribución Binomial de la variable original X (de hecho las probabilidades asociadas al estadístico p̂ se obtienen de la tabla de la binomial de X. Cuando n es suficientemente grande (≥ 30), se hace válida la aproximación de la Binomial a la Normal, por lo que podemos considerar que el estadístico proporción muestral sigue una distribución normal con los parámetros siguientes: µ pˆ = p ⇒ σ p2ˆ = p*q n ⇒ σ pˆ = p* q = n p(1 - p) n Principales Distrib. en el muestreo Ejemplo Distribución del número de aciertos en un test de 5 ítems con p = 0,50 9 Principales Distrib. en el muestreo Aproximación a la normal Principales Distrib. en el muestreo Distribución de muestreo de la cuasivarianza S2 Otra estadística importante empleada para formular inferencias con respecto a las varianzas de la población es la varianza muestral denotada por σˆ 2. El significado de σˆ 2 para formular inferencias de σ2 es comparable con el que tiene X para formular inferencias con respecto a µ. Vamos a estudiar la distribución de muestreo de σˆ cuando este se lleva a cabo sobre una población que tiene una distribución normal. 2 ( -µ) σˆ = ∑ X i n i=1 2 n 2 en donde X1, X2, ..., Xn constituyen una muestra aleatoria de una distribución normal con media µ y varianza σ2 desconocida y lo que queremos es determinar una distribución de muestreo que permita hacer inferencias sobre σ2 con base a σ̂ 2 como la hemos definido. 10 Principales Distrib. en el muestreo Desde un punto de vista práctico, la varianza muestral tal y como la hemos definido tiene poco uso, ya que es muy raro que se conozca el valor de la media poblacional µ. De acuerdo con lo anterior, si se muestrea una distribución normal con media µ y varianza σ2, la varianza muestral se tendría que definir como: n (X i − X )2 ∑ i =1 V (X ) = n donde se ha reemplazado la media desconocida µ por la muestral X , dando origen a la presencia de otra estadística en la definición de V(X). La media o esperanza de la distribución en el muestreo de este estadístico sería: E[V ( X )] = σ 2 − σ2 n n −1 = σ 2 ⋅ n como podemos comprobar numéricamente en el ejemplo inicial. Principales Distrib. en el muestreo El problema que tenemos con este estadístico es que no conocemos qué distribución muestral sigue, (aunque sepamos que la distribución de partida es Normal). Debemos buscar por tanto otro estadístico del que si conozcamos su distribución en el muestreo, al menos, cuando la población de partida es Normal. Este estadístico es la cuasivarianza muestral que se 2 n define como: ( Xi- X ) 2 (1) S =∑ n -1 i=1 donde también se ha reemplazado la media desconocida µ por la muestral X, y se divide por (n - 1) para que sea un estimador insesgado de σ2. Si la distribución de partida es normal, entonces: 2 S (n - 1) σ2 que es la estadística cuya distribución en el muestreo nos permite hacer inferencias sobre σ2 con base en S2, es una χ2 con (n - 1) grados de libertad. La media (esperanza) de este estadístico, su varianza y desviación típica vienen dados por: 4 4 E(S 2 ) = σ 2 ⇒ σ S2 = 2 2σ n ⇒ σS = 2 2σ n 11 Principales Distrib. en el muestreo Distribuciones en el muestreo de diferencias y sumas: Supongamos que estamos interesados en estudiar dos poblaciones. Para cada muestra de tamaño n1 de la primera, calculamos un estadístico T1; eso da una distribución de muestreo para T1, cuya media y desviación típica denotaremos por E[T1] y σT1. Del mismo modo, para una muestra de tamaño n2 de la segunda, calculamos un estadístico T2; eso da una distribución de muestreo para T2 cuya media y desviación típica denotaremos por E[T2] y σT2. De todas las posibles combinaciones de estas muestras de las dos poblaciones podemos obtener una distribución de las diferencias T1 - T2, que se llama Distribucion de muestreo de diferencias de los estadisticos. La media (esperanza) y la desviación típica de esta distribución de muestreo, denotadas respectivamente por E(T1 - T2) y σ(T1 - T2), vienen dadas por: E [T1 − T2 ]= E [T1 ] − E [T2 ] σ ( T -T ) = σ T2 + σ T2 1 2 1 2 supuesto que las muestras escogidas no dependen en absoluto una de otra (sean independientes). Principales Distrib. en el muestreo Si T1 y T2 son las medias muestrales de ambas poblaciones, la notación sería X 1 y X 2 respectivamente, entonces la distribución de muestreo de las diferencias de medias, para poblaciones con medias y desviaciones típicas (µ1, σ1) (µ2, σ2), respectivamente, viene dada por: [ ] [ ] [ ] E X 1 − X 2 = E X 1 − E X 2 = µ1 - µ 2 σ 12 + σ 22 σ ( X - X ) = σ 2X + σ 2X = 1 2 1 n1 2 n2 A veces es útil hablar también de Distribución de muestreo de la suma de estadísticos. La media (esperanza) y la desviación típica de tal distribución son: E [T1 + T2 ]= E [T1 ] + E [T2 ] σ ( T +T ) = σ T2 + σ T2 1 2 1 2 supuesto que las muestras sean independientes. 12 Teorema Central del Límite Si X es la media de una muestra aleatoria de tamaño n que se toma de una población con cualquier distribución (oblicua a la derecha, oblicua a la izquierda, con forma de tina, etc...), cuya media es µ y varianza finita σ2, entonces la forma límite de la distribución de: X -µ Z= σ n conforme n → ∞, es la distribución normal estándar N (0,1). ¿Cómo de grande debe ser la muestra para que la aproximación sea buena, empleando este procedimiento? Esta aproximación normal para X generalmente será buena si n ≥ 30 sin importar la forma de la población. Si la población es simétrica, es posible obtener una buena aproximación con una n ≥ 10. Si se sabe que la población es normal, la distribución muestral de seguirá exactamente una distribución normal, sin importar el tamaño de la muestra. Ejemplo Ejercicios Ejercicio 5.1 Un partido político cree que el 60% del electorado está a favor de su programa. Como su líder encuentra que esta predicción es demasiado optimista decide hacer un sondeo con una muestra de 90 personas. ¿Cuál será la probabilidad de que como máximo 60 personas estén a favor de su partido? Ejercicio 5.2 Disponemos de los datos del I.N.E. (Instituto Nacional de Estadística) sobre el aumento del empleo durante el año 98, el cual se encuentra en un 45%. Si tomamos una muestra aleatoria de 200 ciudadanos. ¿Cuál es la probabilidad de que más del 50% tenga empleo? 13 Ejercicios Ejercicio 5.3 La variable X se distribuye normalmente con media 50 y desviación típica 12. Si extraemos una muestra aleatoria simple de 16 alumnos: 1) Si se extrae un sujeto al azar, ¿Cuál es la probabilidad de que obtenga al menos una puntuación de 45? 2) ¿Cuál es la probabilidad de que su media aritmética sea menor de 58? 3) ¿Cuál es la probabilidad de que su media aritmética sea como mínimo 45? 4) ¿Qué valores debería tomar la media aritmética para que exista una probabilidad de 0,38 de encontrar valores entre ellos? 5) ¿Qué tamaño tendría que tener la muestra para que la probabilidad de encontrar medias superiores a 52 fuese 0,2578? 14