ESTADÍSTICA EMPRESARIAL TEMA 13-I: ESTIMACIÓN INTRODUCCIÓN : La inferencia estadística es primordialmente de naturaleza inductiva. Generaliza las características de una población valiéndose de observaciones empíricas de la muestra. Cuando utilizamos estadísticas muestrales para estudiar un parámetro de la población es muy normal que ambos sean diferentes y la igualdad entre ambos sea mera coincidencia. La diferencia entre la estadística muestral y el correspondiente parámetro de la población se suele llamar error de estimación. Solo conoceríamos dicho error si se conociera el parámetro poblacional que por lo general se desconoce. La única forma de tener alguna certeza al respecto sería hacer todas las observaciones posibles del total de la población; en la mayoría de las aplicaciones prácticas es imposible o impracticable. La razón de ser de la inferencia estadística es la falta de conocimientos sobre las características de la población. Las inferencias estadísticas se hacen por posibilidades o probabilidades. En este tema vamos a estudiar los problemas de estimación. Que vamos a definir como el proceso por el que llegamos a la obtención y análisis de los estimadores. La estimación se divide en estimación puntual y estimación por intervalos. ESTIMACIÓN PUNTUAL Si a partir de las observaciones de una muestra se calcula un solo valor como estimación de un parámetro de la población desconocido, el procedimiento se denomina estimación puntual. Un estimador puntual T de un parámetro es cualquier estadística que nos permita a partir de los datos muestrales obtener valores aproximados del parámetro . Para indicar que T es un estimador del parámetro escribimos =T .Con esto queremos decir que empleamos la expresión dada mediante T para obtener valores próximos al valor del parámetro. Al estimar un parámetro es muy probable que haya error. Para poder utilizar la información que se tenga de la mejor forma posible, se necesita identificar las estadísticas que sean “buenos” estimadores. Hay cuatro criterios que se suelen aplicar para determinar si una estadística es un buen estimador: Insesgamiento, eficiencia, consistencia y suficiencia PROPIEDADES DE UN ESTIMADOR. Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y eficiencia. Se trata del error cuadrático medio. Sea T un estimador del parámetro el valor esperado de (T- )2 . . El error cuadrático medio de T, denotado ECM(T), se define como ECM(T) = E[(T- )2] Al utilizar el error cuadrático medio nos referimos al promedio de los cuadrados de las observaciones. Si éste es pequeño, debemos aceptar que hay una tendencia para que los valores (T- )2 sean pequeños, y así lo será también la diferencia (T- ), lo que quiere decir que T tiende a producir respuestas numéricas próximas al parámetro . 1 ESTADÍSTICA EMPRESARIAL TEMA 13-I: ESTIMACIÓN El poder que tiene T para producir valores próximos a depende de dos condiciones básicas. Una es la “fuerza” o intensidad con la que tiende a dar esos valores(insesgamiento) y la otra es la “fuerza” que tenga para no permitir que se aparte de del camino que lo conduce a (eficiencia). Esta dos condiciones matemáticamente quedan establecidas y precisadas en el teorema siguiente: TEOREMA Si T es un estimador del parámetro , ECM(T) = V[T] + [ -E(T)]2 De esta expresión deducimos que el error cuadrático medio será pequeño en la medida que lo sea su varianza y lo mismo ocurra con [ -E(T)]2, es decir -E(T) sea pequeño. El valor pequeño de la varianza quiere decir que T presenta poca variabilidad. -E(T) pequeño quiere decir que E(T) tiende al valor a medida que el experimento se repite. Es decir T tiende a dar valores próximos al parámetro. La diferencia -E(T) se llama sesgo del estimador. Se dice que una estadística T es un estimador insesgado de valor de .es decir el que tiene sesgo iigual a cero. , si se cumple que E(T)= para cualquier TEOREMA: Sea X1, X2, ..., Xn una muestra aleatoria de cierta distribución de media a) y varianza 2 . Entonces: . 2 T2=S es un estimador insesgado de . T3= p es un estimador insesgado de . T1= X es un estimador insesgado de b) c) 2 La propiedad de insesgamiento nos garantiza que las estimaciones que hagamos con el estimador se encuentran alrededor del parámetro en cuestión, de esto podemos deducir la siguiente REGLA DE PROCEDIMIENTO: REGLA 1 : Si tenemos T1 y T2 estimadores del parámetro escojamos el insesgado. y uno de ellos es insesgado, entonces Una vez que tenemos dos estimadores con el mismo sesgo deberíamos tener otra regla que nos permita elegir uno en lugar del otro, así llegamos a la SEGUNDA REGLA DE PROCEDIMIENTO : REGLA 2 : Si tenemos T1 y T2 estimadores del parámetro menor varianza. ambos insesgado, entonces escojamos el de Tenemos que tener en cuenta otras propiedades de los estimadores consistencia y eficiencia. La consistencia se refiere al comportamiento de un estimador, a medida que la muestra se va tomando de un tamaño mayor. T es un estimador consistente para , si se cumple que PT 1, cuando n tiende a infinito. Un estimador T del parámetro es suficiente cuando es capaz de sustraer de la muestra toda la información que ésta contenga acerca del parámetro. Los estimadores de mayor uso como la media muestral, la varianza muestral y la proporción muestral son buenos estimadores. 2 ESTADÍSTICA EMPRESARIAL TEMA 13-I: ESTIMACIÓN La pregunta que nos podemos hacer es ¿cómo se obtiene un estimador? Los métodos más comunes son el de máxima verosimilitud, método de los momentos muestrales y método de los mínimos cuadrados. ESTIMACIÓN DE MÁXIMA VEROSIMILITUD. La estimación de máxima verosimilitud consiste en considerar todos los valores posibles del parámetro de la población y calcular la probabilidad de que se obtenga ese estimador particular, dados todos los valores posibles del parámetro. Sea X una variable aleatoria con función de densidad f(x, ) determinada por el parámetro . Supongamos que de la población extraemos una muestra de tamaño n que proporciona los datos x 1, x2, ...xn. Con estos datos formamos el producto f(x1, )f(x2, )...f(xn, ). Este producto se llama función de máxima verosimilitud. L(f, ) = f(x1; ) f(x2; ) ... f(xn; ) Una estimación de máxima verosimilitud para el parámetro verosimilitud asuma su máximo. , es aquel valor de donde la función de La expresión de en términos de la muestra aleatoria X1, X2, ..., Xn se llama estimador de máxima verosimilitud de . ESTIMADORES DE LOS PARÁMETROS MÁS USUALES: n 1. X X i 1 i , media muestral. Se emplea para estimar n n (X 2. S2= i 1 i x y se escribe ̂ x = X X )2 , varianza muestral. Este estimador se emplea para estimar n 1 x2 y se escribe ̂ =S2. 2 X n 3. S= escribe i 1 X 2 i n 1 ̂ x , desviación típica muestral. Este estimador se emplea para estimar X y se = S. N º de individuosque poseenla característica , proporción muestral. Este estimador se Total de individuosescogidos emplea para estimar , y se escribe ̂ p . 5. T=N X , total poblacional. Este estimador se emplea para estimar el total poblacional y se escribe ˆ =N X . 6. T=N p , total poblacional. Este estimador se emplea para estimar el total poblacional de individuos que poseen una determinada característica y se escribe ˆ =N p . 4. p= EL ERROR ESTÁNDAR Un mismo estimador ofrece distintos valores para distintas muestras del mismo tamaño extraídas de la misma población. Por lo tanto deberíamos tener una medida de la variabilidad del estimador respecto del 3 ESTADÍSTICA EMPRESARIAL TEMA 13-I: ESTIMACIÓN parámetro que se trata de estimar. Esta variabilidad se mide en términos de la desviación estándar del estimador, la cual recibe el nombre de error estándar. El error estándar de un estimador T de un parámetro es la desviación estándar del estimador. Así por ejemplo, si tomamos X como estimador de x x n , entonces el error estándar está dado por . Error de estimación es el valor absoluto de la diferencia entre una estimación particular y el valor del parámetro. En realidad por cada valor estimado del parámetro se tiene un error de estimación por lo general diferente. Sin embargo, es posible fijar un intervalo dentro del cual se encontrarán la mayoría de los valores de error de estimación para un estimador y parámetro dados. PARÁMETRO ESTIMADOR X p NX ERROR ESTÁNDAR X= ESTIMADOR DEL ERROR X n (1 ) p n N x NX = ̂ x S x S n p(1 p) n NS SN X n ˆ p S p n ̂ N X ESTIMACIÓN POR INTERVALOS. Nos proponemos determinar dos números entre los cuales se halla el parámetro estudiado con cierta certeza. El procedimiento para obtener un intervalo (de confianza) para un parámetro, la media , por ejemplo, requiere de la determinación de un estimador del parámetro y de la distribución del estimador. Un intervalo de confianza para un parámetro es un intervalo construido alrededor del estimador del parámetro de tal manera que podemos esperar que el verdadero valor del parámetro quede incluido en dicho intervalo. El nivel de confianza de un intervalo es una probabilidad(expresada en porcentaje) que representa la seguridad de que el intervalo encierra el verdadero valor del parámetro . En general se expresa de la forma 100(1- )%. representa la probabilidad de que el parámetro quede fuera del intervalo. Para cada nivel de confianza existe un valor de tabla ( normal, t , , F) asociado al nivel de confianza dado. Este valor se llama coeficiente de confiabilidad y se denota: 2 NORMAL z 1 DISTRIBUCIÓN T 2 t k ,1 2 JI CUADRADO DISTRIBUCIÓN F 2k ,1 2 , 2k , F1 2;m,n , F 2;m,n 2 Si queremos un intervalo con un nivel de confianza de 100(1- )%, en la tabla correspondiente buscaremos un valor de variable para el que el área de cola superior(también inferior) sea del 100(1- /2)% ya que la porción de área que no será cubierta por el intervalo debe tener una medida de 4 ESTADÍSTICA EMPRESARIAL TEMA 13-I: ESTIMACIÓN tamaño colas. y se toma como norma general de procedimiento que se reparta en partes iguales entre las dos Los tres conceptos básicos que encierra un intervalo quedan resumidos en la expresión general para un intervalo de confianza: ESTIMADOR (COEF. DE CONF.) . (ERROR ESTÁNDAR) Tenemos las siguientes propiedades sobre la longitud del intervalo: PROPIEDAD 1. Para un tamaño de muestra y una varianza dada a medida que aumenta el nivel de confianza también lo hace la longitud del intervalo PROPIEDAD 2. Para un nivel de confianza y una varianza dadas cuando el tamaño de la muestra aumenta la longitud del intervalo disminuye. x Estas propiedades se deducen de la expresión de la longitud del intervalo L= 2 z n . Para que un intervalo sea tomado en cuenta con algún interés, el nivel de confianza debe ser alto. Suelen presentarse dos interpretaciones para un intervalo de confianza, una probabilística y otra práctica. MEDIA DIFERENCIA DE MEDIAS POBLACIÓN NORMAL VARIANZA CONOCIDA O VARIANZA DESCONOCIDA Y N>30 POBLACIÓN NORMAL VARIANZA DESCONOCIDA Y N<30 POBLACIONES NORMALES INDEPENDIENTES. VARIANZAS CONOCIDAS. POBLACIONES NORMALES INDEPENDIENTES. VARIANZAS IGUALES DESCONOCIDAS X Z 1 / 2 X t n1, / 2 DIFERENCIA DE PROPORCION VARIANZA SE RECOMIENDA EL USO DE ESTA FÓRMULA EN MUESTRAS DE TAMAÑO GRANDE SE RECOMIENDA EL USO DE ESTA FÓRMULA EN MUESTRAS DE TAMAÑO GRANDE POBLACIONES NORMALES n SX n X Y Z 1 / 2 X Y t S 2 p PROPORCIÓN X n 1, / 2 X2 Sp nX Y2 ny 1 1 nx n y (n x 1) S x2 (n y 1) S y2 nx n y 2 p Z (1 / 2) p(1 p) n P1 P2 Z(1 / 2) P1 (1 P1 ) P2 (1 P2 ) n1 n2 (n 1) S 2 (n 1) S 2 , 2 2 ( n 1; / 2) ( n 1;1 / 2) 5 ESTADÍSTICA EMPRESARIAL TEMA 13-I: ESTIMACIÓN MUESTRAS INDEPENDIENTES DE POBLACIONES NORMALES COCIENTE DE VARIANZAS S x2 S x2 1 a 2 , b 2 ; a F / 2;nx 1,ny 1 S y S y b= F / 2;n 1,n 1 y x TAMAÑO DE LA MUESTRA PARA ESTIMAR MEDIAS Y PROPORCIONES. El tamaño de la muestra que debemos escoger para hacer una estimación del parámetro con las características especificadas (de nivel de confianza y error de estimación) es un problema de gran importancia ya que: 1. Si tomamos una muestra más grande de la indicada para alcanzar los resultados propuestos, constituye un desperdicio de recursos (tiempo, dinero, etc.); mientras que una muestra demasiado pequeña conduce a menudo a resultados poco fiables. 2. Cuando elegimos una muestra de tamaño n sólo revisamos una fracción o parte de la población y con base en ella tomamos decisiones que afectan a toda la población. Es evidente que por este procedimiento se abre la posibilidad de que nos equivoquemos en nuestras decisiones, pero esta posibilidad depende en gran medida del tamaño de muestra o fracción de población que se haya analizado. El tamaño que debe tener la muestra depende del nivel de confianza propuesto, así como del máximo error que estemos dispuestos a admitir entre el valor estimado y el valor real del parámetro que corresponde al error de estimación. Muestreo con repetición: n = Z 2 2 .Tamaño de la muestra cuando tratamos de estimar un intervalo de confianza para la d2 media con error de estimación y nivel de confianza dados. El tamaño de la muestra depende de dos elementos básicos (supuesta dada la varianza) que hay que sopesar; se trata del nivel de confianza y del error de estimación: 1. El tamaño de la muestra aumenta a medida que aumenta el nivel de confianza para un error de estimación y una varianza dados. 2. El tamaño de la muestra aumenta a medida que disminuye el error de estimación para un nivel de confianza y varianza dados. Si la población es finita, muestreo sin repetición y el tamaño de ésta debe ser tenida en cuenta: n Nz 2 2 d 2 ( N 1) z 2 2 En las dos fórmulas anteriores aparece la varianza, por lo tanto es necesario conocerla. Si es desconocida debe ser estimada por cualquiera de los medios siguientes: 1. Se toma una muestra preliminar llamada “muestra piloto” y estimamos la varianza mediante S2. Si el tamaño de la muestra piloto es inferior a 30 se recomienda emplear el valor t en lugar del valor normal. 2. Se utilizan estimaciones previas que se hayan hecho acerca de la varianza en estudios anteriores. 3. Si existe evidencia de que la población estudiada tiene distribución normal, estimaremos mediante A/4 donde A es la amplitud o rango de la población. Este 6 ESTADÍSTICA EMPRESARIAL TEMA 13-I: ESTIMACIÓN método requiere el conocimiento del valor máximo y mínimo de la varianza investigada. En el caso de la proporción poblacional el tamaño de la muestra esta dado por: n= z 2 p(1 p) d2 Cuando no se da estimación alguna para la proporción, utilizaremos la fórmula anterior tomando Esto arroja por lo general una muestra mucho mayor de la indicada. Si el tamaño de la población debe ser tenido en cuenta el tamaño de muestra está dado por: n= p =0´5. Nz 2 p(1 p) ( N 1)d 2 z 2 p(1 p) 7 ESTADÍSTICA EMPRESARIAL TEMA 13-I: ESTIMACIÓN 8