Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 3. Prohibida su reproducción ESTIMACION CONFIANZA DE INTERVALOS DE Una muestra permite realizar estimaciones puntuales de los parámetros de la población. Utilizando las propiedades de las distribuciones muestrales, es posible construir un intervalo que contiene el valor exacto del parámetro, un cierto porcentaje del total de las veces que se realicen estas construcciones. Procediendo de esta forma, también se obtiene una medida probabilística del riesgo de decidir que el parámetro sí se encuentra en tal intervalo. En una estimación puntual, el parámetro de interés se estima por medio de un estadístico que reúne ciertas bondades (insesgamiento, eficiencia, consistencia). ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 4. Prohibida su reproducción Ejemplos 1. La media x de una muestra entrega una estimación puntual de la media poblacional µ. 2. La proporción p de una muestra es una estimación puntual de la proporción p. Un intervalo de confianza para un parámetro, establece un rango en el cual se encuentra el parámetro de interés. Los extremos (límites) del intervalo se obtienen seleccionando, en primer lugar, un nivel de confianza. Nivel de Confianza El nivel de confianza es la probabilidad deseada para acertar en nuestras decisiones; usualmente, 90%, 95%, o 99%. ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 5. Prohibida su reproducción Lo usual es que el intervalo de confianza se construya en torno a una estimación puntual. Por ejemplo, si n es suficientemente grande (n ≥ 30), los intervalos de confianza para µ toman la forma x ± RADIO x − RADIO x x + RADIO 144444444 42444444444 3 DECISION: En este intervalo encuentra µ. se El RADIO que se utiliza se calcular desde Excel, con la función ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 6. Prohibida su reproducción INTERVALO.CONFIANZA(alfa;desv_estandar ;tamaño), según sea el nivel de confianza elegido y los datos maestrales obtenidos. “Alfa” corresponde a 1-nivel de confianza. Por ejemplo, para un 95% de confianza, alfa=5%. El valor para “desv_estandar” debe ser la desviación estándar de la muestra. “Tamaño” se refiere al tamaño de la muestra tomada, es decir n. Otra forma en que se puede calcular, si no se tiene Excel a mano, es calculando el intervalo: x±z σ n Donde σ puede estimarse por su valor muestral, y z se encuentra en la siguiente tabla: ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 7. Prohibida su reproducción Nivel de confianza Calificación z 0,90 1,645 0,95 1,96 0,98 2,33 0,99 2,575 Así, por ejemplo, para construir un intervalo para la media µ, con un nivel de confianza del 90%, determinamos z . De la tabla, z = 1,645. El intervalo es x ±1,645 σ . x 144424443 Estimación puntual La media µ se encuentra en este ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene intervalo. desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 8. Prohibida su reproducción PROCEDIMIENTO DE CALCULO DE UN IC PARA LA MEDIA USANDO EXCEL PARA: • σ CONOCIDO O • σ DESCONOCIDO PERO n ≥ 30. 1.- Utilice una muestra aleatoria simple de tamaño n para determinar una estimación puntual de la media. Sea x esta estimación puntual. 2.- Seleccione el nivel de confianza a utilizar. 3.- Calcule el nivel de significancia de la estimación: alfa=1-nivel de confianza. 4.- Calcule el radio del intervalo utilizando la función de Excel: radio= INTERVALO.CONFIANZA(α;desv_estándar; n) ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 9. Prohibida su reproducción α=1-nivel de confianza Desviación estándar es σ , la varianza conocida de la población, o s , su estimación muestral, cualquiera de las dos. NO DIVIDIR s POR n . 5.- El Intervalo de confianza requerido es: x ± radio ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 10. Prohibida su reproducción Procedimiento de construcción de un intervalo de confianza para la media de una población sin Excel para: • σ CONOCIDO O • σ DESCONOCIDO PERO n ≥ 30.. 1. Utilice una muestra aleatoria simple de tamaño n para determinar una estimación puntual de la media. Sea x esta estimación puntual. 2. Seleccione el nivel de confianza a utilizar. 3. Determine el valor z que corresponde a este nivel de la tabla dada. 4. El intervalo se obtiene calculando x ±zσ . x 123 σ x = σ n ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 11. Prohibida su reproducción Ejemplo En una muestra aleatoria de 30 viajes en bus entre la ciudad A y la ciudad B, se obtuvo un tiempo promedio de viaje de 105 minutos. La desviación estándar de la población se ha estimado en 8 minutos. Obtener un intervalo de confianza para el verdadero tiempo promedio de viaje. Utilice un nivel de confianza del 95%. 1. x =105 2. Nivel de confianza = 95% 3. z = 1,96 (obtenido de tabla) 4. En = 8 =1,46 . x 30 intervalo buscado es: σ consecuencia, 105 ± 1,96 * 1,46 = 105 ± 2,86. ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. el Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 12. Prohibida su reproducción Podemos asegurar, con un nivel de confianza del 95%, que un viaje promedio toma entre 102,14 y 107,86 minutos. Interpretación del Nivel de Confianza La probabilidad correspondiente al nivel de confianza, debe entenderse referida a la construcción reiterada de intervalos de confianza. Por ejemplo, si utilizamos un nivel de confianza de un 90%, la interpretación apropiada de esta probabilidad es que de 100 intervalos construidos, aproximadamente 90 de ellos contendrán a la media poblacional. (Una explicación teórica de esta interpretación se encuentra en el Apéndice 1.) ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 13. Prohibida su reproducción En el ejemplo siguiente, se ha extraído 100 muestras aleatorias simples de tamaño 30, de una población que consiste de los números enteros de 0 a 50, distribuidos uniformemente. A partir de cada una de estas muestras, se ha calculado 100 estimaciones puntuales de µ (recordar que µ = 25). Luego, utilizando estas estimaciones puntuales, se ha construido 100 intervalos de confianza para la media µ, con un nivel de confianza de un 90%. Se esperaría que la media µ esté contenida en aproximadamente 90 de estos 100 intervalos. ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 14. Prohibida su reproducción 12 de las 100 estimaciones puntuales para la media µ Media 27,8 24,9 23,8 27,1 24,7 29,9 23,2 25,1 27,4 28,5 26,7 31,2 12 de los 100 intervalos de confianza para la media µ inf. sup. 23,4 32,2 20,5 29,3 19,4 28,2 22,7 31,5 20,3 29,1 25,5 34,3 18,8 27,6 20,7 29,5 23 31,8 24,1 32,9 22,3 31,1 26,8 35,6 25 25 25 25 25 25 25 25 25 25 25 25 µ 1 1 1 1 1 0 1 1 1 1 1 1: µ está en el intervalo 0: µ no está en el intervalo Los 100 intervalos de confianza para la media µ Porcentaje de intervalos que contienen a la media µ 0,91 ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. 0 Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 15. Prohibida su reproducción Observaciones 1. Si σ no se conoce y el tamaño de la muestra es 30 ó más, se puede estimar σ por medio de s1 . 2. Si σ no se conoce y el tamaño n de la muestra es menor que 30, siempre que la distribución de la población pueda suponerse normal, podemos hacer uso de la distribución t para encontrar un intervalo de confianza (estimado) para la media poblacional. La distribución t es una familia de distribuciones. Para decidir cuál de estas distribuciones es la adecuada, se debe especificar el número de grados de libertad (gl) que corresponde utilizar. Hay una distribución t para cada posible número de grados de libertad. En este caso, se debe tomar gl = n – 1. 1 En este caso, se habla de “intervalo de confianza estimado”. ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 16. Prohibida su reproducción 3. Si σ es conocida y la distribución de la población es normal, entonces lo apropiado es utilizar la distribución normal estandarizada, cualesquiera sea el tamaño n de la muestra. 4. Si el tamaño n de la muestra es menor que 30 y la distribución de la población no puede suponerse normal, otros métodos deberían usarse. ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 17. Prohibida su reproducción PROCEDIMIENTO DE CÁLCULO DE UN IC PARA LA MEDIA USANDO EXCEL PARA: • σ DESCONOCIDO y n < 30. 1.- Utilice una muestra aleatoria simple de tamaño n para determinar una estimación puntual de la media. Sea x esta estimación puntual. 2.- Seleccione el nivel de confianza a utilizar. 3.- Calcule el nivel de significancia de la estimación: α = 1 - nivel de confianza. 4.- Calcule tα Excel usando la función Excel DISTR.T.INV. tα = DISTR.T.INV(α;g.l). ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 18. Prohibida su reproducción g.l. son los grados de libertad, es decir el tamaño de la muestra menos 1. g.l. = n-1 . 4.- El intervalo de confianza estará dado por: x ±tα s n ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 19. Prohibida su reproducción Ejemplo Se sabe que el rendimiento promedio de los fondos de inversión (con capital mínimo de 100 millones) fue de 13,42% durante el año 1989. Un inversionista desea comparar esta cifra con el rendimiento promedio de similares fondos de inversión disponibles en la actualidad. Se selecciona una muestra de 25 fondos de inversión y se calcula la media y la desviación estándar de sus rendimientos. Los valores obtenidos fueron 9,43% y 2,79%, respectivamente. Debido al tamaño de la muestra, suponemos que la distribución de los rendimientos de los fondos de inversión considerados, es normal. ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 20. Prohibida su reproducción 1. x = 9,43 2. Nivel de confianza = 90%, alfa=10%. 3. Para gl = 24, se tiene, de excel, que t = 1,711 4. σ̂ = s = 2,79 = 0,558. x n 25 En consecuencia, el intervalo buscado es: 9,43 ± 1,71 * 0,558 = 9,43 ± 0,95. Es decir, de 8,48% a 10,38 % Podemos asegurar, con un nivel de confianza del 90%, que el rendimiento promedio de los fondos actuales es más bajo que el correspondiente al año 1989. ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 21. Prohibida su reproducción Estimaciones de intervalos de otros parámetros poblacionales siguen el mismo patrón. Procedimiento para estimar un intervalo de confianza para la proporción de una población. 1. Utilice una muestra aleatoria simple de tamaño n para encontrar una estimación puntual de la proporción. Sea p esta estimación puntual. 2. Seleccione el nivel de confianza de la estimación. 3. Determine el RADIO (o el valor de z que corresponde a este nivel.) 4. El intervalo de confianza se obtiene calculando p ± RADIO , calculando RADIO en Excel con la función INTERVALO.CONFIANZA, con desv _ est = p (1 − p ) ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 22. Prohibida su reproducción 5.Si no se cuenta con excel, el intervalo de confianza se obtiene calculando p ± z σ̂ . Como la proporción p es p 123 σ̂ = p p (1 - p) n desconocida, el error estándar se calcula estimando p por medio de p . Ejemplo Radio Castle prueba una muestra de 200 transistores y encuentra que 25 son defectuosos. Estime un intervalo de confianza para la proporción p de transistores defectuosos. (Utilice un nivel de confianza del 95%.) 1. p = 25 = 0,125 200 2. Nivel de confianza = 95%, luego ALFA=5%. ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 23. Prohibida su reproducción 3. z = 1,96 (obtenido de tabla) 4. σ̂p = p(1n– p) = 0,125*0,875 = 0,0234. 200 En consecuencia, el intervalo buscado es: 0,125 ± 1,96 * 0,0234 = 0,125 ± 0,0459 Es decir, de 0,0791 a 0,171. Para un nivel de confianza dado, si el tamaño de la muestra aumenta, entonces el error estándar disminuye y el intervalo de la estimación necesariamente es más pequeño. Así se puede determinar el tamaño de muestra apropiado para que la diferencia entre el estadístico y el parámetro no exceda de un cierto número dado. En un intervalo de confianza, se denomina error tolerable máximo (o margen de error) a la máxima diferencia que podría producirse entre ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 24. Prohibida su reproducción el estadístico y el parámetro; dado un cierto nivel de confianza. E 6444 474444 8 x – zσx x x + zσx E = error tolerable máximo A continuación, calculemos el tamaño n de la muestra, dado un error tolerable máximo E. En el caso de un intervalo de confianza para la media, sabemos que E = zσx = zσ , n Resolviendo para n, obtenemos: 2σ2 z n= 2 . E ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 25. Prohibida su reproducción En el caso de un intervalo de confianza para la proporción, se obtiene z2p1 − p n= . 2 E NOTA: En ambos casos, el valor de z es el correspondiente al nivel de confianza elegido. Ejemplo Don Stuart, cliente de la agencia de bienes raices Davis, desea saber el valor promedio por acre de terreno en el condado Bend. Don requiere que la estimación no difiera en más de $2.000 del valor correcto, con un nivel de confianza del 99%. Datos anteriores hacen pensar que la desviación estándar es de $8.000. ¿Qué tamaño de muestra debe utilizar Don? E = 2.000 z = 2,575 ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 26. Prohibida su reproducción σ = 8.000 2 2 = 106,1 n = 2,575 8.000 2 2.000 El tamaño de la muestra para la estimación solicitada es 107. Observación Las fórmulas para el tamaño de muestra requieren conocer σ y p, respectivamente. En el primer caso, una apreciación razonable del rango, permite obtener una estimación razonable de σ: Utilice como estimación de σ, la sexta parte del rango estimado para la variable. ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 27. Prohibida su reproducción En el segundo caso: Tome p = 0,5; lo que corresponde a elegir la peor de las situaciones. Ejemplos 1. Calcule tamaño de muestra para estimar la compra promedio por individuo en un Mac Donald, si el nivel de confianza es de un 95%. 2. Se estima que la proporción de clientes que poseen la tarjeta de crédito de una cierta multitienda, no sobrepasa el cuarto de la población. ¿Qué tamaño de muestra se requiere si se desea estimar esta proporción con un error tolerable máximo igual a 0,03? ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 28. Prohibida su reproducción Apéndice 1 La proporción de intervalos x ± zσ que x contienen a µ es igual al nivel de confianza utilizado; es decir, es igual a ADNE(–z↔z). Distribución muestral de las medias 0.4 Distribución normal, con media µ y desviación estándar 0.3 σx = σ . n 0.2 Y Nivel de Confianza 0.1 0.0 -4 -3 -2 µ – zσ -1 0 µ x x x 2 µ+ zσ 3 4 x X x − zσ x – z σ < µ < x+ z σ 1 x si y sólo si Esto ocurre con probabilidad igual al área achurada. x x+ zσ x µ –z σ < x < µ + z σ x 14444 4244444 3 ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. x Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 29. Prohibida su reproducción Apéndice 2 Un supuesto de los modelos estadísticos utilizados, es que el muestreo se realiza con reemplazo. Por otro lado, estos modelos pueden aplicarse sin modificaciones a poblaciones grandes que se muestrean sin reemplazo, ya que el tamaño de la población garantiza prácticamente los mismos resultados. Si la población es pequeña y el muestreo se realiza sin reemplazo, los modelos vistos necesitan ser ajustados. Regla Si el tamaño n de la muestra es mayor que el 5% del tamaño N de la población (y el muestreo se realiza sin reemplazo) los errores estándares se corrigen multiplicando por el llamado factor de corrección de población finita = N–n . N–1 ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0. Estimación de Intervalos de Confianza (2007) H. Hevia, M. E. Valenzuela y P. Carvajal pag 30. Prohibida su reproducción Ejemplo Supongamos que en el ejemplo de los fondos de inversión, la población consiste en 250 fondos de inversión disponibles; es decir, N = 250. Entonces, el factor de corrección de población finita es f. c. p. f. = N − n = 250 − 25 = 0,95 N −1 250 −1 En consecuencia, el intervalo buscado es: 9,43 ± 1,71 * 0,558 * 0,95 = 9,43 ± 0,91. Es decir, de 8,52% a 10,34 % ADNE: area bajo normal estándar, donde la curva normal estándar es aquella que tiene desviación estandar 1 y media 0.