INFERENCIA ESTADÍSTICA Población y Muestra Una variable aleatoria puede pensarse como cualquier característica medible de los individuos de una población. El conjunto de todas las mediciones de dicha variable es la Población o Universo. x1, x2 , x3 ,.....xN Muestra es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las mediciones x 1 , x2 , x3 ,.....xn Cada una de estas mediciones son valores que toman las variables aleatorias X1, X 2 , X 3 ,..... X n Estas variables forman una muestra aleatoria de tamaño n si: •Las Xi son variables aleatorias independientes. •Cada variable Xi tiene la misma distribución de probabilidad que la distribución de la población con su misma esperanza µ y varianza σ2 Ejemplo de una población Seleccionamos una muestra Seleccionamos otras muestras El objetivo de tomar una muestra es obtener información sobre los parámetros no conocidos de la población La inferencia estadística generaliza conclusiones extraídas de una muestra sobre la población Parámetro Es una cantidad numérica calculada sobre la población. Estadístico muestral o Estimador Es cualquier operación que se hace con la muestra. Ej: media muestral, proporción muestral, varianza muestral Los estimadores son variables aleatorias, su distribución de probabilidades se llaman distribuciones de muestreo. Distribución de la media muestral Si los datos originales no se distribuyen normalmente Distribución de la media muestral y características numéricas Al ser la media muestral una suma de variables aleatorias xi con igual distribución, por el teorema central del límite, la media muestral tiene una distribución normal. Y por el teorema de Bernoulli generalizado, E xi V xi 2 E ( xi ) n xi n xi E ( x ) E E n n i 1 n i 1 n n xi n xi V ( x ) V V i 1 n i 1 n 2 2 n. n 2 n Estimación puntual de parámetros Es el valor numérico que toma un estimador. Se calcula con los datos de la muestra, del cual se espera que estime un parámetro poblacional. Si X es una variable aleatoria con distribución de probabilidades f(x), caracterizada por el parámetro desconocido y si x1, x2 ,....., xn es una muestra aleatoria de tamaño n, entonces ˆ h( x1, x2,.....xn ) Es un estimador puntual de La media muestral es un estimador puntual de S 2 esun estimador puntualde 2 Propiedades de los estimadores • Propiedad de insesgadura: Un estimador ˆ es un estimador insesgado del parámetro si E(ˆ )= Es decir, la esperanza del estimador muestral es el parámetro poblacional. Ejemplos: la media y la varianza muestrales son estimadores insesgados de y 2 Respectivamente. Demostrarlo •Propiedad de eficiencia: Un estimador insesgado ˆ es más eficiente que otro ˆ2 Si son insesgados de la varianza de ˆ2 1 y la varianza de ˆ1 es menor que Propiedades de los estimadores • Propiedad de suficiencia: Un estimador es suficiente si utiliza toda la información de la muestra. La media muestral es un estimador suficiente de El modo no es un estimador suficiente de Estimación por intervalos Intervalo de confianza para la media poblacional conociendo 2 Partimos de una población X, la distribución muestral de la media y su estandarización. Al hacer inferencia, existe el riesgo X ~ N , 2 2 X ~ N , n z P ( z /2 Z z /2 ) 1 de equivocarnos. x ~ N 0,1 n Coeficiente de confianza Intervalo de confianza para la media poblacional con varianza conocida P ( z /2 P ( z /2 x z /2 ) 1 n x z /2 ) 1 n n P ( z /2 x z /2 x ) 1 n n P ( z /2 x z /2 x ) 1 n n P( x z /2 x z /2 ) 1 n n Ejemplo Se sabe que la vida media en hs de una lámpara de 75 watts es aproximadamente normal, con dispersión de 25 hs. Una muestra aleatoria de 20 lámparas tiene una vida media de 1014 hs. Construir un intervalo de confianza del 95% respecto de la vida media de las lámparas. Observaciones • Sería erróneo escribir P 1003,043 1024,95 0,95 ¿Por qué? •Esto significa que no hay que vincular 1 con el parámetro que se estima, ya que está ligada solamente con los límites del intervalo que varían de una muestra a otra. Interpretación: aunque nunca sabremos si la media poblacional se encuentra en el intervalo hallado, tendremos la seguridad de que el método utilizado para la obtención de dicho intervalo es confiable el 95 %, es decir, se puede esperar que contenga a dicho parámetro en el 95 % de las veces. Nivel de confianza y precisión de la estimación Cuanto más alto es el nivel de confianza, más largo es el intervalo y menor es la precisión de la estimación. Elección del tamaño de la muestra La precisión del intervalo de confianza es el radio del intervalo z . n 2 Esto significa que al usar la media muestral para estimar la media poblacional , el error de muestreo es x z . n 2 Ejercicio: despejar n Estimación por intervalos para la media poblacional con varianza poblacional conocida 2 P( x z /2 n x z /2 n ) 1 con varianza poblacional desconocida Si n 30 se reemplaza por S y usamos el intervalo anterior, para muestras grandes P ( x Z /2 S n x z /2 S n ) 1 Intervalo para la media poblacional si no se conoce la dispersión poblacional σ En la práctica es habitual que todos los parámetros sean desconocidos Cuando se desconoce σ, se observa el tamaño de la muestra n Si n <30 En este caso, S no es una buena estimación de σ. Si además la muestra proviene de una población normal, la media muestral se ajusta a una distribución t. T x S/ n Si n ≥30 En este caso la media muestral se distribuye normalmente, porque S es una mejor estimación de σ z ~ tn 1 x S n Distribución T (de Student) Tabla T Intervalo de confianza para la media con varianza poblacional desconocida y n<30 Si la población base es normal, la varianza es desconocida y el tamaño de la muestra menor que 30, la media muestral tiene distribución T con n-1 grados de libertad P(t /2,n1 T t /2,n1 ) 1 P ( t /2,n 1 P ( x t /2,n 1 S n x t /2,n 1 ) 1 S n x t /2,n 1 S n ) 1 Ejemplo : Dispersión poblacional desconocida y tamaño de la muestra menor que 30 Se toma una muestra piloto, se calcula S y se la utiliza como estimación de Ejemplo: En un estudio hecho para determinar el tiempo medio necesario para el montaje de cierta pieza de una máquina, 25 trabajadores hicieron un promedio de 42,5 minutos y una varianza de 4,1 minutos. Si los tiempos de los trabajadores se distribuyen normalmente, estimar el tiempo promedio necesario para el montaje de la máquina al nivel del 99% t0,005;24 2,797 41,367 43,63 Distribución Ji-Cuadrado Sean x1, x2 ,...., xn Variables aleatorias independientes y distribuidas en forma normal estandarizada Es no negativa y asimétrica hacia la derecha. Si n aumenta, se aproxima a la normal 2 2 2 2 2 x x x ..... x Entonces la variable aleatoria 1 2 3 n Tiene distribución Ji-Cuadrado con n grados de libertad. La media y la varianza de la distribución ji-cuadrado es n 2 2n Distribución muestral de la 2 variable n 1 n Si S2 x i 1 i x 2 n 1 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal que tiene una varianza 2 Entonces la variable aleatoria muestral n 1 S 2 2 gl=2 Se distribuye como 2 2 n 1 gl=3 gl=4 gl=5 (Ji- cuadrado con n-1 gl) 0 2 Chi2 6 8 Tabla de Ji-Cuadrado Intervalo de confianza para la varianza poblacional Una estimación de la varianza poblacional, es la varianza muestral n S2 x i 1 i x 2 n 1 2 Si bien comprobamos que es un estimador insesgado de S NO ES un estimador insesgado de la dispersión poblacional Para muestras grandes, el sesgo es pequeño y es muy común hacer esa estimación. Usaremos la variable aleatoria con distribución Ji- cuadrado y n-1 grados de libertad: 2 n 1 S 2 2 Extremos del intervalo para la varianza poblacional P 21 /2; n 1 2 2 /2; n 1 2 2 n 1 S 2 P 1 /2; n 1 /2; n 1 2 2 2 n 1 S 2 n 1 S 2 1 /2; n 1 2 /2; n 1 2 2 2 n 1 S 2 2 1 /2; n 1 2 n 1 S 2 n 1 S P 2 2 2 /2; n 1 1 /2; n 1 n 1 S 2 /2; n 1 1 2 Suponiendo una confiabilidad del 90% para n = 7 , se ubican los valores de la tabla en la gráfica Tabla de Ji-Cuadrado Construir el intervalo de confianza con esos datos, si la varianza muestral es de 4,1 2 n 1 S 2 n 1 S P 2 2 2 /2; n 1 1 /2; n 1 n 1 S 2 /2; n 1 2 1 n 1 S 2 6.4,1 1,952 12,6 21 /2; n 1 1,952 15 2 6.4,1 15 1,64 Ejemplo De 70 cables producidos por una compañía se obtuvo una resistencia media a la tracción de 1,5 toneladas con una dispersión de 45 kg. Estimar la dispersión de todos los cables producidos por la compañía utilizando un nivel de confianza de 0,95. 38,34 53,53 Intervalo de confianza sobre una proporción Si se ha tomado una muestra aleatoria de tamaño n de una gran población (posiblemente infinita), donde X observaciones en esta muestra pertenecen a la clase de interés. X Es binomial, de parámetros n y p ˆp n Es el estimador puntual de la proporción poblacional. La distribución de muestreo de p̂ es aproximadamente normal con esperanza p y p 1 p varianza con p no cerca de 0 y 1. n Demostrarlo. Para n tendiendo a infinito, intervalo de confianza para p z pˆ p pˆ 1 pˆ La distribución de es n aproximadamente normal estándar. P z /2 Z z /2 1 P z /2 pˆ p z /2 1 pˆ 1 pˆ n pˆ 1 pˆ pˆ 1 pˆ 1 P pˆ z /2 p pˆ z /2 n n Ejemplo En una muestra aleatoria de 75 ejes de árbol, 12 tienen un acabado superficial que es más rugoso que lo permitido por las especificaciones. Una estimación puntual de la proporción de los ejes en la población que excede las especificaciones de rugosidad es pˆ X 12 0,16 n 75 Construir un intervalo de confianza para p utilizando una confiabilidad del 95% 0,077 p 0,243