INFERENCIA ESTADISTICA PROBLEMAS RESUELTOS. rv> 1 1) Se quieren hacer inferencias sobre una población mediante un muestreo aleatorio simple, con reemplazamiento se conocen los siguientes datos: • Población normal • Tamaño muestral:25 = n • Cuasivarianza muestral: 225= 2 ( n 1) a) Obtenga un intervalo de confianza del 95% para la media poblacional. b) Obtenga un intervalo de confianza del 90% para la desviación típica de la población c) Si se quiere obtener una confianza del 99% de que la estimación realizada de la media se encuentre a una distancia de menos de 3 unidades de la verdadera media de la población.¿Cuantas observaciones deberían tomarse? d) Con la muestra inicial, realice un contraste unilateral con un nivel de significación del 5% para ver si se puede aceptar o no que la media de la población es menor o igual a 194. e) Con la muestra inicial, realice un contraste bilateral para decidir aceptar o no que la varianza de la población sea 150, de manera que sea solo del 5% la probabilidad de que si esta varianza fuera 150, el contraste nos dijera que no. rv> 2 a) Estimación de la media de una población normal con varianza desconocida y n=25 menor a 30. I [ X t n 1; s 2 n ] ; 5% 2 2,5% t 24; 0.025 2.064 225 I 197 2.064 197 6.192 190.808 ; 203.192 25 b) El estimador de la varianza poblacional es: chi.cuadrado. 2 (n 1) s 2 2 que tiene distribución 2 (n 1) s 2 ; P 24 ;1 2 24 ; 2 2 2 2 1 2 1 P 2 0.95 24;1 (n 1) s 2 2 24; 2 2 (n 1) s 2 (n 1) s 2 2 P 2 0.95 2 24; 24;1 / 2 2 Entonces el Intervalo de la var ianza : 2 (n 1) s 0.95 24 . 225 24 . 225 24 225 24 225 I 2 ; I 36.415 ; 13.848 36.415 13.848 rv> I 12.18 ;19.75 3 c) Del Inc a) sabemos que para n= 25 y una confianza del 95%, el error de estimación es inferior a 6.192 unidades. Si queremos un error menor y mayor confianza, entonces seguro necesitaremos una muestra de mayor tamaño.(n>30) ( esto nos permite trabajar con z) s s I X Z ; donde ERROR Z 3 2 2 n n Z s 2.5757 225 2 n n n 166 ERROR 3 SE DEBERIAN TOMAR 166 25 141 OBSERVACIO NESMAS. d) Se trata de un contraste unilateral sobre la media de una población normal con varianza desconocida y muestra menor a 30. H 0 : 194 ; H 1 : 194 X 197 194 ESTADISTIC O DE CONTRASTE : t s n 15 1 5 REGIÓNDE ACEPTACIÓN : t t n 1; t 24 ; 0.05 1.711 COMO t 1 1.711 t 24 ; 0.005, A ESTE NIVEL DE SIGNIFICACIÓN NO HAY MOTIVO PARA RECHAZAR LArv> HIPOTESIS NULA. 4 e) Error tipo I:0.05, como contraste es bilateral: alfa/2=0.025. H 0 : 2 150 ; H 1 : 2 150 ESTADISTIC O DE CONTRASTE : 2 ( N 1) S 2 2 36 REGION DE ACEPTACIÓN : 2 n 1; 1 2 ; 2 n 1; 2 12.401 ; 39.364 COMO EL VALOR DEL ESTADISTIC O DE CONTRASTE ESTA CONTENIDO EN LA REGION DE ACEPTACION , NO HAY MOTIVOS PARA RECHAZAR LA HIPOTESIS NULA A ESE NIVEL DE SIGNIFICACIÓN . rv> 5 2) Una empresa del sector informático, pretende lanzar al mercado un nuevo producto para ingenieros. Para ello realiza un estudio de viabilidad en el mercado, efectuando una consulta, mediante muestreo aleatorio simple a 1750 ingenieros; entre los que se ha detectado que un 44.3% tiene intención de realizar compra durante los próximos (3) tres años. a) A partir de estos datos, la empresa realiza una presentación interna de los resultados , dando un intervalo de confianza para la proporción de intención de compra en tres años de entre 0.424 y 0.462 sin informar, sin embargo sobre el contenido probabilístico de dicho intervalo. Calcule ese dato que falta. b) Obtenga un intervalo de confianza del 95% para el porcentaje de ingenieros que tienen intención de compra en los próximos tres años. rv> 6 a) Nuestro problema consiste en calcular el nivel de riesgo alfa, con el cual se determino el intervalo de confianza: n 1750 ; pˆ 0.443 ; n p q 1750 0.443 0.557 9 se puede aproximar la distribuci ón binomial por la normal : (1 ) pˆ qˆ 2 2 n n AL INTERVALO DADO LO PODEMOS EXPRESAR : 0.443 0.019 I pˆ Z O SEA QUE Z 2 I pˆ Z pˆ qˆ 0.019 Z 0.019 2 n n 1.6000854 pˆ qˆ Z 1.6 0.0558 0.1096 2 NIVELDE CONFIANZA : (1 )100 89.04% 2 b) I 0.443 1.96 pˆ qˆ 0.443 0.02327 0.4197 ; 0.4663 n rv> 7 PROBLEMAS SOBRE TEST DE HIPOTESIS, CON SOLUCION DETALLADA. 3) La empresa de transporte urgentes ”El Rápido” asegura en su publicidad que entrega el 80% de sus envíos antes de las 12 de la mañana. Para contrastar la calidad de este servicio, la asociación de consumidores selecciona aleatoriamente 100 envíos en diversos días. a) Establecer la hipótesis nula y la hipótesis alternativa. b) Describir, en este caso, en qué consistirían los errores tipo I y tipo II. ¿Cómo se llama la probabilidad de confundirnos de modo que la asociación acuse injustamente a la empresa de no cumplir sus compromisos publicitarios? c) A partir de los datos de la muestra, el informe elaborado por la asociación afirma que el valor obtenido es significativo. ¿Cómo debe ser interpretado este resultado? Solución: Apartado a: · Hipótesis nula (H0) : p ≥ 0.8 ”al menos el 80% de los envíos se entregan antes de las 12 h. de la mañana” · Hipótesis alternativa (H1) : p < 0.8 ”menos del 80% de los envíos se entregan antes de las 12 h. de la mañana” Las hipótesis así definidas, suponen plantear una prueba de contraste de rv> 8 hipótesis unilateral. Apartado b: · errores tipo I: rechazar la hipótesis nula, siendo ésta verdadera. · errores tipo II: aceptar la hipótesis nula, siendo ésta falsa. La probabilidad de confundirnos al acusar injustamente a la empresa sería, precisamente, el nivel de significación α de la prueba. Estaríamos cometiendo un error de tipo I. H0 falsa H0 verdadera Aceptar H0 Decisión Correcta p = 1− α Error tipo II p=β Rechazar H0: Error tipo I p=α Decisión Correcta p = 1− β Apartado c: Si el valor obtenido en la prueba es significativo, entenderemos que la diferencia encontrada no es debida al azar. Optaremos por rechazar la hipótesis nula. Es decir, se pone en duda la afirmación de la empresa acerca de que ”el 80% de los envíos se entregan antes de las 12 h. de la mañana”. rv> 9 4) Con el objetivo de controlar la calidad de sus productos, la fábrica de conservas ”PEZ” ha decidido seleccionar parte de su producción para un análisis detallado. a) Comentar brevemente cómo podrían seleccionarse muestras aleatorias de esa producción. ¿Debería efectuarse un muestreo con o sin reposición? ¿Por qué? b) La producción diaria es de 6.000 latas de las que el 80% son de tamaño normal y el 20% restante corresponde a la lata ”familiar”. Sabiendo que el tamaño muestral es n = 30, justificar cuántas latas de cada tipo ”deberían” estudiarse. Solución: Apartado a: Una posible manera de seleccionar la muestra es partir de números aleatorios obtenidos de tablas, calculadora u ordenador. Todas las fórmulas que hemos estudiado de teoría del muestreo y de inferencia estadística presuponen que las poblaciones son infinitas o que, si no lo son, el muestreo aleatorio se realiza con reposición. Sin embargo, si la población es suficientemente grande, y la muestra cumple las condiciones de aplicación de las pruebas o tests: ”es preferible seleccionar la muestra sin reposición, para evitar la posibilidad de que algún elemento se tenga que tener en cuenta más de una vez” Conviene efectuar un muestreo aleatorio estratificado; si fuera sistemático, cabría la posibilidad de obtener una muestra sesgada (fallos sistemáticos de rv> 10 envasado...). Apartado b: Para efectuar un muestreo aleatorio estratificado, será necesario que la muestra refleje fielmente los estratos existentes en la población; deben considerarse los estratos formados por: latas de tamaño Normal y latas de tamaño Familiar. El tamaño muestral de cada estrato deberá ser proporcional a la presencia del mismo en la población original: TOTAL : 6000 POBLACION NORMAL :80% FAMILIAR : 20% TOTAL : 30 MUESTRA : NORMAL : 80% de 30 24 FAMILIAR : 20 % de 30 6 Luego, la muestra debe estar formada por 24 latas de tamaño Normal y 6 latas de tamaño Familiar. rv> 11 5) En los últimos tiempos, las ventas medias en un comercio, rondaban las 120.000 pesos diarias. Sin embargo, hace unos meses se abrió a poca distancia, otro comercio del mismo ramo. El establecimiento defiende que las ventas medias se mantienen o incluso han aumentado, pero que no han disminuido. Para contrastar estadísticamente este supuesto se ha seleccionado una muestra de las ventas diarias realizadas después de la apertura de la superficie comercial. a) Establecer las hipótesis nula y alternativa. b) ¿Qué nombre recibe la probabilidad de que el establecimiento concluya erróneamente que las ventas medias han disminuido? Explica cómo se denomina y en qué consiste el otro error posible. c) El establecimiento ha encargado el estudio a un especialista, y en su informe afirma textualmente que ”el valor obtenido al realizar el contraste es significativo”, pero el establecimiento no entiende el significado de la frase. ¿Significa que el establecimiento debe concluir que sus ventas disminuyeron, o es lo contrario? rv> 12 Solución: Apartado a: · Hipótesis nula (H0) : μ ≥ 120000 ”las ventas medias diarias se mantienen o incluso han aumentado” · Hipótesis alternativa (H1) : μ < 120000 ”las ventas medias diarias han disminuido”. Apartado b: · errores tipo I: rechazar la hipótesis nula, siendo ésta verdadera. · errores tipo II: aceptar la hipótesis nula, siendo ésta falsa. La probabilidad de que el establecimiento concluya erróneamente que las ventas han disminuido sería, precisamente, el nivel de significación α de la prueba. Estaríamos cometiendo un error de tipo I. H0 falsa H0 verdadera Aceptar H0 Decisión Correcta p = 1− α Error tipo II p=β Rechazar H0: Error tipo I p=α Decisión Correcta p = 1− β Apartado c: Si el valor obtenido al realizar el contraste es significativo, entendemos que la diferencia encontrada no es debida al azar. Optaremos por rechazar la hipótesis nula. Deberíamos concluir que las ventas sí han disminuido, aunque sería necesario rv> 13 especificar cuál es el nivel de significación de la prueba. 6) La Secretaría de la Juventud de una municipalidad, maneja el dato de que la edad a la que los hijos se independizan de sus padres es una variable Normal con media 29 años y desviación típica 3 años. Aunque la desviación típica no plantea dudas, sí se sospecha que la media ha descendido, sobre todo por la política de ayuda al empleo que ha llevado a cabo el Municipio. Así, de un estudio reciente sobre 100 jóvenes que se acaban de independizar, se ha obtenido una media de 28.1 años de edad. a) Con un nivel de significación del 1%, ¿puede defenderse que la edad media no ha disminuido, frente a que sí lo ha hecho como parecen indicar los datos? Plantear el contraste o test de hipótesis y resolverlo. b) Explicar, en el contexto del problema, en qué consisten cada uno de los errores de tipo I y II. Nota: Algunos valores de la función de distribución de la Normal de media 0 y desviación típica 1: F (100) = 1; F (3) = 0.999; F (2.33) = 0.99; F (0.01) = 0.504 rv> 14 Solución: Apartado a: 1. Formulamos las hipótesis nula y alternativa: · H0 : μ ≥ 29 ”la edad media no ha disminuido” · H1 : μ < 29 ”la edad media ha disminuido” 2. Aceptamos el nivel de significación impuesto y que se trata de una prueba unilateral: α = 0.01 → Zα = 2.33 3. Determinamos el Intervalo de Confianza para una media: IC = x ± Zα σ √n = 28.1 ± 2.33 · 3 √100 = (27.401, 28.799) 4. Elegimos entre H0 y H1: Como que la media a contrastar (29) se encuentra fuera del Intervalo de Confianza calculado, rechazamos la hipótesis nula H0; es decir, no podemos afirmar, con un nivel de significación del 1%, que la edad media de emancipación en la población sea mayor o igual a 29 años; concluimos, por tanto, que ha disminuido. rv> 15 Apartado b: · errores tipo I: rechazar la hipótesis nula, siendo ésta verdadera. · errores tipo II: aceptar la hipótesis nula, siendo ésta falsa. En este caso: Error tipo I: Aceptar que la edad media ha disminuido cuando en realidad no lo ha hecho. Error tipo II: Aceptar que la edad media no ha disminuido cuando en realidad sí lo ha hecho. H0 verdadera H0 falsa Aceptar H0 Decisión Correcta p = 1− α Error tipo II p=β Rechazar H0: Error tipo I p=α Decisión Correcta p = 1− β rv> 16 7) El 42% de los escolares de cierto país suelen perder al menos un día de clase a causa de gripes y catarros. Sin embargo, un estudio sobre 1.000 escolares revela que en el último curso hubo 450 en tales circunstancias. Las autoridades defienden que el porcentaje del 42% para toda la población de escolares se ha mantenido. a) Contrastar con un nivel de significación del 5% la hipótesis defendida por las autoridades sanitarias , frente a que el porcentaje ha aumentado, como parecen indicar los datos, explicando claramente a qué conclusión se llega. b) ¿Cómo se llama la probabilidad de concluir erróneamente que el % se ha mantenido? Nota: Algunos valores de la función de distribución Normal de media 0 y desviación típica 1: F (1000) = 1; F (1.645) = 0.95; F (1.92) = 0.9726; F (0.05) = 0.5199 rv> 17 Solución: Apartado a: 1. Formulamos las hipótesis nula y alternativa: · H0 : p ≤ 0.42 ”el 42% se ha mantenido (no ha aumentado)” · H1 : p > 0.42 ”el 42% ha aumentado” 2. El nivel de significación impuesto es del 5% y se trata de una prueba unilateral, por tanto Zα = 1.645: 3. Calculamos el Intervalo de Confianza para una proporción: La proporción observada en la muestra es: p IC 0.45 1.645 450 0.45 1000 0.45 x 0.65 1000 ; IC p z p(1 p) n , entonces IC= ( 0.424, 0.475) 4. Elegimos entre H0 y H1: Como que la proporción a contrastar (0.42) se encuentra fuera del Intervalo de Confianza calculado, rechazamos la hipótesis nula H0 ; es decir, no podemos afirmar, con un nivel de significación del 5% que el porcentaje del 42% se ha mantenido en la población. Apartado b: · errores tipo I: rechazar la hipótesis nula, siendo ésta verdadera. · errores tipo II: aceptar la hipótesis nula, siendo ésta falsa. La probabilidad de concluir erróneamente que el % se ha mantenido, sería la probabilidad de aceptar la hipótesis nula siendo ésta falsa. Esta probabilidad de denomina β y determina la potencia de la prueba que es (1 − β). Estaríamos cometiendo un error de tipo II. rv> 18 8) A partir de la información que recoge las pautas de consumo diario de cigarrillos de la población femenina, las autoridades sanitarias desean adoptar las medidas oportunas con objeto de reducir dicho consumo. 0-5 5-10 10-15 15-25 25-35 10 15 7 2 Consumo cigarrillos Pob. femenina 2 (miles) a) Determine el consumo más frecuente. b) Calcule el consumo medio y su desviación típica. c) La media y desviación típica del consumo masculino ha sido de 15 y 4, respectivamente. Un consumo de 17 cigarrillos, ¿en que población destaca más? ¿por qué? rv> 19 Solución: Apartado a: El consumo más frecuente se corresponde con la moda de esta distribución, que es el intervalo Mo = (10 − 15) cigarrillos, o si se prefiere, con la marca de clase de dicho intervalo: Mo = 12.5 cigarrillos. Apartado b: Para calcular la media y la desviación típica: x x i 2 fi n xi f i s 2 E ( xi ) ( E ( xi )) 2 2 12.986 n xi f i 40.218 n 2 s 40.218 6.341 Apartado c: Podemos presuponer una distribución normal en el consumo de cigarrillos tanto de los hombres como de las mujeres, y tipificar en cada caso el valor de 17 cigarrillos, mediante el cambio de variable: z x Z HOMBRE 17 15 0.5 ; 4 z MUJER 17 12.986 0.633 6.341 De esta manera, comprobamos que el consumo de 17 cigarrillos destaca más entre las mujeres, dado que ese valor supera a la media en 0.633 veces la desviación típica. rv> 20