EJERCICIOS DE INFERENCIA SOBRE µ CON σ² DESCONOCIDA INFERENCIA SOBRE µ CON σ2 DESCONOCIDA Distribución de la media muestral Muchas veces deseamos realizar inferencias acerca de la µ de una población pero no contamos con la varianza poblacional (σ²). En estos casos podemos estimar la misma a través de los datos de la muestra: s2 = 1 υ n ∑(x i − x)2 i =1 Donde υ = n −1 Caso de distribuciones normales Si tenemos una variable x = N (µ ;σ 2 ) Se puede demostrar que la media de una muestra de n elementos ( X ) tiene distribución T-Student con υ = n-1 grados de libertad: tυ = x−µ s n Donde υ = n −1 Caso de Distribuciones no normales Si tenemos una variable X que no cumple con el supuesto de normalidad, se puede demostrar que a medida que n aumenta la distribución de X tiende a la distribución normal. Cuanto más similar sea la distribución de X a la distribución normal, menor será el tamaño de muestra requerido. Para estar cubiertos en el peor de los casos necesitaríamos un tamaño muestral de n = 40. En este caso, nos quedaría: tυ ≅ x−µ s n Mariano Bonoli 71.03 ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA. Oct2006 Donde υ = n −1 1 de 7 EJERCICIOS DE INFERENCIA SOBRE µ CON σ² DESCONOCIDA Intervalo de Confianza La expresión del intervalo de confianza para este caso, es exactamente la misma que existe en el caso de medias con desvíos conocidos donde reemplazamos el desvío poblacional por el desvío muestral y la distribución Normal (Z) por la de T-Student (t). Así obtenemos: ( P x − t (υ ;1−α / 2 ) . S n ≤ µ ≤ x − t(υ ;1−α / 2 ) . S n ) = 1−α Donde 1-α = NC = Nivel de Confianza α = Riesgo El tamaño de muestra para un determinado valor de Error muestral, se puede obtener a través de la siguiente expresión: t (υ ;1−α / 2) .S n = E 2 Esta expresión presenta 2 problemas: El primer lugar, no tenemos S hasta no haber extraído la muestra, por lo que se usa un valor de S estimado a través de un a muestra piloto u otro procedimiento. Por otro lado, n se halla en ambos términos de la ecuación ya que está presente en υ=n1. Nos resulta imposible despejar n. Por esta razón, no nos queda mas remedio que recurrir en este caso que recurrir a un proceso iterativo, que no es otra cosa que ir probando valores de υ=n-1 hasta que la fórmula devuelva el mismo valor de n. Test de Hipótesis Para realizar los ensayos de hipótesis, como en el caso de las medias con σ² conocida, todas las expresiones se obtienen a partir de: tυ = x−µ s n Por ejemplo, H 0 )µ ≤ µ0 Mariano Bonoli 71.03 ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA. Oct2006 2 de 7 EJERCICIOS DE INFERENCIA SOBRE µ CON σ² DESCONOCIDA α µo t= x c =? x − µ0 x −µ ⇒ t (υ ;1−α ) = c S S n n xc = µ 0 + t (υ ;1−α ) . CR: Si x≥xc S n Rechazo la Ho En estos ensayos de hipótesis, el cálculo de la potencia y tamaños de muestra requiere complicados procedimientos que escapan al contenido de la materia. Ejemplo Una empresa investiga un producto farmacéutico que se supone disminuye el contenido de colesterol en sangre. Este remedio impediría la acumulación de colesterol en las paredes arteriales previniendo la arteriosclerosis. Se han tratado 10 pacientes voluntarios con la droga en experimentación. Luego de un tiempo prudencial se midió el nivel de colesterol en sangre de los mismos: x [mg/ml] 239 144 113 228 192 104 175 166 179 204 Se sabe que el nivel medio habitual de colesterol en sangre es de 250 mg/ml, para este tipo de pacientes. Se desea saber si la droga reduce efectivamente el nivel de colesterol. Se sabe que la droga actualmente utilizada reduce el nivel de colesterol hasta una media de 180 mg/ml. a) Evaluar si la nueva reduce el colesterol (α=5%). b) Estime el nivel de colesterol que tendrá un paciente tratado con este medicamento. c) Cuantas muestras más habría que extraer si se deseara reducir en un 40% el Error de la estimación anterior. En este caso debemos adoptar un criterio pesimista ya que la decisión está asociada al lanzamiento de un producto al mercado. Recordemos que en los planteos de hipótesis solo podemos afirmar H1 en el caso de Rechazar Ho, pero en caso de no rechazar Ho no podemos decir nada ni sobre Ho ni sobre H1. Si lo que queremos es probar que el remedio reduce el colesterol, no nos queda mas remedio que plantear Ho) µ≥200 y si rechazamos esta hipótesis podemos decir que H1 es verdadera. Mariano Bonoli 71.03 ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA. Oct2006 3 de 7 EJERCICIOS DE INFERENCIA SOBRE µ CON σ² DESCONOCIDA vs H 0 ) µ ≥ 200 H 1 ) µ < 200 La hipótesis nula será rechazada en el caso de que el valor de bajo’. CR y RD : Si x ≤ x c Rechazo la Ho x sea ‘sospechosamente El medicamento reduce el colesterol α=5% x c =? t= Antes de calcular µo = 200 x − µ0 x −µ ⇒ t (υ ;α ) = −t (υ ;1−α ) = c S S n n x c, debemos calcular S: n ∑x x= S2 = 1 υ n = 174,4 n ∑ ( xi − x ) 2 = i =1 i i =1 1 υ n ∑ (x i − x ) 2 = 1997,44 i =1 S = 1997,44 = 44,68 xc = µ 0 − t (υ ;1−α ) . CR y RD : Si S 44,68 44,68 = 250 − t (9;0,95) . = 250 − 1,833. = 224,1 n 10 10 x ≤ 224,1 Rechazo la Ho El medicamento reduce el colesterol Como x =174,4 es menor a 224,1, Rechazo la Ho y se puede decir que el medicamento es efectivo. b) ( P x − t(υ ;1−α / 2 ) . S n ≤ µ ≤ x − t(υ ;1−α / 2 ) . Mariano Bonoli 71.03 ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA. Oct2006 S n )=1−α 4 de 7 EJERCICIOS DE INFERENCIA SOBRE µ CON σ² DESCONOCIDA 1-α=0,95 1-α/2=0,975 ( ) ( ) , 68 , 68 P 174,4 − t( 9;0,975 ) . 4410 ≤ µ ≤ 174,4 + t( 9;0,975 ) . 4410 = 0,95 , 68 , 68 P 174,4 − 2,2622 . 4410 ≤ µ ≤ 174,4 + 2,2622 . 4410 = 0,95 P (142,4 ≤ µ ≤ 206,4 ) = 0,95 c) En primer lugar calcularemos el error de la estimación realizada en el punto b). Recordemos que se definía como error a la semiamplitud del intervalo: E Anterior = LimiteSup − LimiteInf 206,4 − 142,4 = = 32 2 2 O bien: E Anterior = t (υ ;1−α / 2 ) . S n , 68 = 2,2622. 4410 = 32 Como queremos reducir este Error en un 40%: E Nuevo = 0,6.E Anterior = 19,2 O sea que estamos buscando el tamaño de muestra para que el intervalo tenga una amplitud de 19,2*2=38,4 en vez de una amplitud de 32*2=64. Para esto aplicamos la fórmula del tamaño de muestra: t (υ ;1−α / 2) .S n = E 2 Reemplazando: t ( n−1;0,975) .44,68 n' = 19,2 2 Para resolver esta ecuación realizamos el siguiente proceso iterativo: 1. Comenzamos reemplazando en la ecuación, el valor de n cualquiera. Supongamos n=20. 2. Calculamos 2 2 t (19;0,975) .44,68 2,093.44,68 = n' = = 23,72 ⇒ n' = 24 19,2 19,2 Mariano Bonoli 71.03 ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA. Oct2006 5 de 7 EJERCICIOS DE INFERENCIA SOBRE µ CON σ² DESCONOCIDA Reemplazando n=20, obtenemos n’=24. Estamos buscando que ambos términos de la ecuación sean iguales, por lo que este resultado no nos sirve. 3. El siguiente paso consiste en reemplazar los sucesivos valores de n’ que vamos obteniendo por n hasta obtener el mismo valor de n que reemplazamos: Como obtuvimos en el paso anterior n’=24, reemplazamos: 2 2 t ( 23;0,975) .44,68 2,0687.44,68 = n' = = 23,2 ⇒ n' = 24 19,2 19,2 Finalmente, reemplazando n=24, obtenemos la respuesta deseada. Por lo tanto habría que extraer unas 14 muestras más para reducir el error muestral en un 40%. Ejercicios Propuestos 1) En un lote de novillos se desea calcular el tamaño de muestra para poder dar un intervalo de confianza para el peso promedio de los mismos. A tal efecto, se sabe que el desvío estándar de sus pesos es aproximadamente de 20kg y se desea que el error de muestreo, esto es, la semiamplitud del intervalo, valga 10kg. Calcule el tamaño de muestra para un nivel de confianza del 90%. RTA: n=13 2) En una industria textil hay un lote de tambores de 100litros de capacidad que contienen un suavizante textil, que se han usado parcialmente, por lo que se desea estimar el contenido medio de los mismos. A tal efecto se tomó una muestra de 15 tambores, se midieron sus contenidos y se obtuvo una media de 63litros, con un desvío estándar de 12,5litros. Calcular: a) Los límites de confianza del 80% para el contenido medio de los tambores de la población. b) ¿Qué tamaño de muestra adicional habría que tomar para poder dar un error de muestreo de ±3litros?. RTA: a) 63 ± 4,3. b) n=15 datos mas. 3) Se desea estimar el ingreso medio de los habitantes de una ciudad a efectos de lo cual se tomó una muestra de 100 personas, que arrojó una media de $625 y un desvío estándar de $576. a) Calcule los límites de confianza del 90% para el ingreso medio de esta ciudad. b) ¿Qué tamaño de muestra adicional deberá tomarse si se desea un error de muestreo de ±$50? c) Ud. seguramente advertirá que esta variable No tiene distribución Normal El modelo apropiado para esta situación es el Lognormal; ¿queda invalidado nuestro cálculo por ello?. RTA: a) 625 ± 95,6. b) 260 c) No. 4) La variabilidad entre parcelas de un mismo cultivo es inherente a las mismas parcelas e independiente de la variedad del cultivo que se somete a prueba. Se realizó un experimento con una nueva variedad sobre 20 parcelas de 100m2, que arrojó un rendimiento medio de 37,8kg y un desvío de 4,2kg. a) Calcule un intervalo de confianza del 90% para el rendimiento medio verdadero. b) ¿Qué tamaño de muestra habría que tomar para tener un error muestral de 1kg?. RTA: a) 37,8 ± 1,6. b) 50 Mariano Bonoli 71.03 ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA. Oct2006 6 de 7 EJERCICIOS DE INFERENCIA SOBRE µ CON σ² DESCONOCIDA 5) Un camión trae lotes de fardos de alfalfa especial para caballos de carrera, que deben tener en promedio 10kg de alfalfa. Dado que en el stud no se dispone de báscula para camiones, se toma una muestra de 10 fardos del camión, antes de descargarlo. Para un lote recién recibido, la muestra arrojó un peso medio de 9,7kg con un desvío de 0,23kg. a) ¿Acepta Ud. el lote, con probabilidad 5% de equivocarse? Calcule el nivel de significación “a posteriori”. b) Calcule un intervalo de confianza del 90% para el peso medio de los fardos. RTA: a) Se rechaza el lote α*=0,0013. b) 9,7 ± 0,13. 6) Una pequeña fábrica de pinturas ha desarrollado un producto que puede competir en calidad y precio con el de la empresa líder del ramo. Se ha establecido la conveniencia de su lanzamiento si se puede asegurar una venta media mínima de 100 lt por cliente y por año. A tal efecto, se enviaron muestras gratis a 16 posibles clientes, interrogándoselos luego sobre el volumen anual de pintura que estarían dispuestos a comprar. Se obtuvo así una media muestral de 114 lt con un desvío estándar de 18 lt. a) Asumiendo un riesgo del 10%, ¿cuál sería la decisión recomendada?. Calcule el nivel de significación “a posteriori”. b) Calcular los límites de confianza del 90% para el volumen medio de pintura. c) ¿A cuántos clientes más habría que enviar muestras para tener un intervalo cuya amplitud sea la mitad del anterior? RTA: a) Lanzar el producto, α*=0,0036. b) 114 ± 8. c) 41 7) Una empresa radicada en el interior del país comenzará una campaña de ventas si el ingreso medio de las familias de la zona supera los $1000 por mes. A efectos de tomar una decisión se toma una muestra de 100 familias registrándose un ingreso medio en el último mes de $1100 y un desvío estándar de $923. Asumiendo un 1% de probabilidad de comenzar la campaña equivocadamente: a) ¿Aconsejaría Ud. comenzar la campaña de ventas?. Calcule el nivel de significación “a posteriori”. b) Calcule límites de confianza del 90% para el ingreso medio de esta zona. c) Recalcule tamaño de muestra para reducir a la mitad el error muestral del intervalo hallado. RTA: a) No, α*=01,14. b) 1100 ± 153. c) n=395 8) Una empresa textil utiliza en una de sus confecciones un hilo de coser cuya resistencia a la rotura es una variable Normal de media 2,9 kg. Considera la posibilidad de cambiar de producto, por otro más barato, con la finalidad de bajar costos. Un proveedor ofrece un producto alternativo, considerablemente más barato, asegurando que no presenta importantes diferencias con respecto al que usa actualmente la empresa. Se solicita entonces una prueba al nuevo proveedor, consistente en tomar una muestra de 100 observaciones, que arrojó una media de 2,79kg, con un desvío estándar de 0,32kg. Se ha establecido que, si el producto ofrecido tuviera la misma resistencia media que el actual, la probabilidad de adoptarlo debe ser 0,95. ¿Qué recomienda Ud.? RTA: a) No adoptarlo. Se rechaza hipótesis optimista. α*=0,00043. Mariano Bonoli 71.03 ESTADÍSTICA TÉCNICA, INGENIERÍA, UBA. Oct2006 7 de 7