PROBABILIDAD Y ESTADÍSTICA Sesión 7 6. ESTIMACIÓN DE PARÁMETROS 6.1 Características el estimador 6.2 Estimación puntual 6.2.1 Métodos 6.2.1.1 Máxima verosimilitud 6.2.1.2 Momentos 6.3 Intervalo de confianza para la media 6.4 Intervalo de confianza para la diferencia de medias 6.5 Intervalos de confianza para la proporción 6.6 Intervalos de confianza para la diferencia de proporciones 6.7 Intervalos de confianza para la varianza 6.8 Intervalos de confianza para la relación de varianzas 6.9 Determinación del tamaño de muestra 6.9.1 Basado en la media de la población 6.9.2 Basado en la proporción de la población 6.9.3 Basado en la diferencia entre las medias de la población Objetivo: Comprender cómo se calculan los intervalos de confianza y determinar el tamaño ideal de una muetra 6. ESTIMACIÓN DE PARÁMETROS El estudio de poblaciones estadísticas supone en general el conocimiento de la función de probabilidad que gobierna el comportamiento aleatorio de la variable de interés. En muchos casos sabemos o presumimos conocer la familia distribucional de una población. Sabemos por ejemplo que la población es aproximadamente normal; pero desconocemos la media y la varianza poblacionales. Sabemos que la variable de interés es binomial pero desconocemos la probabilidad de éxito poblacional o el número de pruebas de Bernoulli. Sabemos que se trata de un proceso de Poisson pero desconocemos el número de eventos raros por intervalos. Presumimos que la variable es exponencial pero desconocemos el parámetro que precisa la distribución exponencial poblacional. Lógicamente en todas estas situaciones la función de probabilidad de la variable en estudio se concreta determinando los parámetros poblacionales correspondientes y para lograrlo se utilizan los denominados métodos de estimación de parámetros. La estimación de uno o varios parámetros poblacionales desconocidos es posible construyendo funciones de probabilidad de variables aleatorias muestrales, mas conocidos como estimadores muestrales. Dichos estimadores garantizaran un cálculo o una aproximación satisfactoria del parámetro poblacional desconocido siempre que cumplan propiedades de: insesgamiento o máxima simetría, varianza mínima o máxima concentración de los datos alrededor del parámetro estimado y máxima probabilidad. 6.1 Características el estimador a) Estimador insesgado Si tenemos un gran número de muestras de tamaño n y obtenemos el valor del estimador en cada una de ellas, sería deseable que la media de todas estas estimaciones coincidiera con el valor de μ . Se dice que un estimador es insesgado si su esperanza matemática coincide con el valor del parámetro a estimar. b) Estimador eficiente Se dice que los estimadores son eficientes cuando generan una distribución muestral con el mínimo error estándar ,es decir, entre dos estimadores insesgados de un parámetro dado es más eficiente el de menor varianza. c) Estimador consistente Un estimador se dice consistente cuando su valor tiende hacia el verdadero valor del parámetro a medida que aumenta el tamaño de la muestra . Es decir, la probabilidad de que la estimación sea el verdadero valor del parámetro tiende a 1. d) Estimador suficiente Se dice de un estimador que es suficiente cuando es capaz de extraer de los datos toda la información importante sobre el parámetro. 6.2 Estimación puntual Cuando en una población con familia distribucional conocida f(x, θ) queremos estimar el verdadero valor del parámetro poblacional θ utilizando como lente para determinarlo al estimador muestral θ̂ ; procedemos a seleccionar una muestra de tamaño n de dicha población, calculamos a partir de ella un valor θ y afirmamos entonces que θ θ k es una estimación puntual de θ con un error, por exceso o defecto, de valor k. K depende en general de la variable aleatoria muestral θ̂ y de su desviación σ θ̂ . En los casos de muestras grandes, cuando los valores de la muestra corresponden a variables aleatorias estadísticamente independientes (iid) y por lo tanto se dan las condiciones del TLC, se tiene que: ˆ α/2σ ˆ Zα/2σ/ n, n 30 Maxk θ θ ¿Pero como escoger el estimador θ̂ que mejor precisa el parámetro θ ? Hay dos métodos generales: el método de momentos y el método de máxima verosimilitud. 6.2.1 Métodos 6.2.1.1Máxima verosimilitud El método de estimación de máxima verosimilitud permite, en el caso de un parámetro o n vector de parámetros poblacionales desconocidos, determinar el estimador o vector de estimadores que maximizan la función de probabilidad conjunta de una muestra de n v.a. seleccionadas de la población en estudio. Sea f(x, θ) la fdp de una población en la cual queremos determinar θ . Sea x1,x2,….,xn una muestra de v.a. iid seleccionadas de dicha población, a la función de probabilidad conjunta L( θ ) de las n v.a. de la muestra la llamaremos funcion de verosimilitud muestral, es decir: L ( θ )=L(x1,x2,….,xn; θ ) Pero como las v.a. son independientes tenemos: L( θ ) = f(x1, θ ) f(x2, θ )….f (xn, θ ). Es decir: n L ( θ )= f(x i , θ) i1 6.3 Intervalo de confianza para la media Intervalo de confianza para la media de una población normal, siendo σ conocida Supongamos que tenemos una muestra aleatoria de n observaciones de una distribución N(μ, σ). Si σ es conocida, y la media muestral observada es x , entonces el intervalo de confianza para la media poblacional μ, al nivel de confianza del 100(1-α)% viene dado por: , x z / 2 x z / 2 n n donde z / 2 es tal que P( Z z / 2 ) y la variable aleatoria Z→N(0,1). 2 Intervalo de confianza para la media de una población normal, siendo σ desconocida y n<30. Supongamos que tenemos una muestra aleatoria de n<30 observaciones de una distribución N(μ,σ). Si σ es desconocida, y la media y la desviación típica muestral observadas son x y s, respectivamente, entonces el intervalo de confianza para la media poblacional μ, al nivel de confianza del 100(1-α)% viene dado por: s s , x t / 2 x t / 2 n n donde t / 2 es tal que P tn 1 t / 2 2 y la variable tn 1 sigue una distribución t-Student con n-1 grados de libertad. Intervalo de confianza para la varianza de una población normal. Supongamos una muestra aleatoria de n observaciones de una distribución N(μ,σ). Si σ es desconocida y la 2 varianza muestral observada es s entonces el intervalo de confianza para la varianza poblacional 2 al nivel de confianza del 100(1-α)% viene dado por: (n 1) sˆ (n 1) sˆ , 2 2 n 1, / 2 n 1,1 / 2 donde n21,1 / 2 es tal que: P n21 n21,1 / 2 y 2 n 1, / 2 2 es tal que: P n21 n21, / 2 1 2 y la variable aleatoria n21 sigue una distribución 2 de Pearson con n-1 grados de libertad. 6.4 Intervalo de confianza para la diferencia de medias Supongamos dos muestras independientes de tamaño nx y n y procedentes de poblaciones normales. N x , x y N y , y , respectivamente. Si las medias para las muestras observadas son x e y , entonces un intervalo de confianza, al nivel de confianza del 100(1-α)%, para las diferencias de medias poblacionales x y viene dado por: 2 2 x2 y x2 y ( x y ) z / 2 , ( x y ) z / 2 nx n y nx n y en donde z / 2 es el número tal que: P Z z / 2 2 y la variable aleatoria Z sigue una N(0, 1). 6.5 Intervalos de confianza para la proporción Si p representa la proporción de éxitos en una muestra aleatoria de tamaño n suficientemente grande y q=1-p, entonces un intervalo de confianza aproximado para la proporción poblacional p al nivel de confianza del 100(1-α)% viene dado por: pˆ z 2 pˆ qˆ , pˆ z n 2 en donde z / 2 es tal que 2 y la variable aleatoria Z sigue una distribución N(0,1). P[Z> z / 2 ]= 6.7 Intervalos de confianza para la varianza pˆ qˆ n Fuente http://www.geociencias.unam.mx/~ramon/EstInf/Clase10.pdf 6.8 Intervalos de confianza para la relación de varianzas http://www.geociencias.unam.mx/~ramon/EstInf/Clase11.pdf