FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C INTRODUCCIÓN E n esta Antología se presenta la parte de las reglas para inferir ciertas características de una población a partir de muestras extraídas de ella, junto con indicaciones probabilísticas de la veracidad de tales inferencias. En la inferencia estadística se estudian las relaciones existentes entre una población, las muestras obtenidas de ella, y las técnicas para estimar parámetros, tales como la media y la varianza, o bien para determinar si las diferencias entre dos muestras son debidas al azar, etc. 1 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C INDICE UNIDAD I. PRINCIPIOS DE LAS TÉCNICAS DEL MUESTREO 1.1 Muestreo Aleatorio 1.2 Muestreo Aleatorio con reposición. 1.3 Muestreo aleatorio sin reposición 1.4 Muestreo aleatorio estratificado 1.4.1 Ejemplo 1.4.2 Asignación proporcional 1.4.3 Asignación óptima 1.5 Muestreo Sistemático 1.5.1 Ejemplo 1.6 Muestreo por conglomerados 1.7 Ejercicios UNIDAD II. TEORÍA DE LA ESTIMACION 2.1. Estimación y propiedades de los estimadores 2.2. Estimación puntual. Propiedades 2.2.1 Ejemplo 2.3 Estimación por intervalos y propiedades 2.4 Intervalos de confianza para . 2.4.1 Intervalo de confianza para con varianza conocida ( 2.4.1.1 Ejercicios 2.4.2 Intervalos de confianza para con varianza desconocida (2) 2.4.2.1 Ejercicios 2.4.3 Intervalo de confianza para el parámetro de proporción p cuando se muestrea una distribución binomial. 2.4.3.1.1 Ejercicios 2.4.4. intervalos de confianza para la diferencia de medias cuando se muestrean dos distribuciones normales e independientes. 2.4.4.1 Ejercicios 2.5 Intervalo de confianza para 2 2 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 2.5.1 Ejercicios III. PRUEBAS DE HIPOTESIS 3.1 Conceptos de la teoría de hipótesis. 3.2 Errores tipo I y tipo II 3.2.1 Ejercicios 3.3 Pruebas de hipótesis para una media 3.3.1 Prueba de hipótesis para una media con varianza conocida(2) 3.3.2. Prueba de hipótesis para la media con varianza desconocida 3.3.2.1 Ejercicios 3.4 Pruebas de hipótesis de proporciones 3.4.1 Una proporción 3.4.2. Diferencia de proporciones. 3.4.2.1 Ejercicios 3.5 Pruebas de hipótesis para diferencia de dos medias 3.5.1. Prueba de hipótesis para la diferencia de medias con varianzas conocidas 3.5.2. Prueba de hipótesis para la diferencia de medias con varianzas desconocidas 3.5.2.1 Ejercicios 3.6 Pruebas de hipótesis sobre la varianza de una distribución normal 3.6.1 Ejercicios 3.7 Pruebas de hipótesis para una razón de varianzas 3.7.1 Ejercicios BIBLIOGRAFIA 3 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C I. PRINCIPIOS DE LAS TECNICAS DEL MUESTREO Muestra es la parte del grupo de elementos que se examina y población es el grupo total a partir del cual se selecciona la muestra, conocida también como universo.. Un censo comprende el examen de todos los elementos de un determinado grupo, mientras que el muestreo comprende el análisis de una pequeña parte de ellos. El objetivo del muestreo es establecer generalizaciones con respecto a un grupo total de elementos sin tener que examinarlos uno por uno. Esto hace necesario que la población objetivo sea establecida de manera que se puedan hacer generalizaciones significativas. Las poblaciones de tamaño limitado se conocen como poblaciones finitas, en tanto que las que tienen tamaño ilimitado se conocen como poblaciones infinitas. Ejemplo de poblaciones finitas: los alumnos de una clase determinada, los productos de un supermercado, los libros de una biblioteca y los automóviles del estado de Veracruz. Por otra parte, las poblaciones infinitas generalmente son los resultados o elementos de cierto tipo de proceso, como la tirada de monedas, en la cual el número de caras que se puede producir es ilimitado. Otros ejemplos de esta población son la producción futura de una máquina, la extracción de canicas de una urna regresando cada canica a su lugar antes de sacar otra, y el nacimiento de insectos. La consideración importante es si separar uno o un pequeño número de elementos de la población, influirá de manera considerable en las probabilidades relativas. El problema de regresar o no un elemento muestreado a una población antes de sacar otro de ésta, surge cuando se muestrea a una población finita, ya que la probabilidad de incluir los elementos de una población en una muestra dependerá de sí estamos muestreando con reposición o sin reposición. El propósito de un estudio estadístico suele ser, extraer conclusiones acerca de la naturaleza de una población. Al ser la población grande y no poder ser estudiada en su integridad en la mayoría de los casos, las conclusiones obtenidas deben basarse en el examen de solamente 4 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C una parte de ésta, lo que nos lleva, en primer lugar a la justificación, necesidad y definición de las diferentes técnicas de muestreo. La teoría del muestreo tiene por objetivo, el estudio de las relaciones existentes entre la distribución de un carácter en dicha población y las distribuciones de dicho carácter en todas sus muestras. Las ventajas de estudiar a una población a partir de sus muestras son principalmente: Coste reducido: Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gatos de recogida y tratamiento de los datos serán menores. Mayor rapidez: Estamos acostumbrados a ver como los resultados de escrutinio de las primeras mesas electorales, se obtiene una aproximación bastante buena del resultado final de unas elecciones, muchas horas antes de que el recuento final de votos haya finalizado; Más posibilidades: Para hacer cierto tipo de estudios, por ejemplo el de duración de cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una parte de ella y sacar conclusiones sobre las demás. De este modo se ve que al hacer estadística inferencial debemos enfrentarnos con dos problemas: Elección de la muestra (muestreo), que es a lo que nos dedicaremos en este capítulo. Extrapolación de las conclusiones obtenidas sobre la muestra, al resto de la población (inferencia). El tipo de muestreo más importante es el muestreo aleatorio, en el que todos los elementos de la población tienen la misma probabilidad de ser extraídos; Aunque dependiendo del problema y con el objetivo de reducir los costes o aumentar la precisión, otros tipos de muestreo 5 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C pueden ser considerados como veremos más adelante: muestreo sistemático, estratificado y por conglomerados. 1.1 Muestreo aleatorio Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio. El muestreo aleatorio se puede plantear bajo dos puntos de vista: Con reposición. Sin reposición de los elementos; Si el tamaño de una muestra es pequeño en relación con el de la población, el no regresar los objetos muestreados a la población tendrá un efecto insignificante sobre las probabilidades de los elementos restantes, y muestrear sin reposición no causará serias dificultades. Por otra parte, las muestras relativamente grandes tienden a distorsionar las probabilidades de los elementos restantes cuando se muestrea sin reposición. Una regla generalmente aceptada es sustituir unidades si el tamaño de la muestra excede del 5% del tamaño de la población. Por lo que el seleccionar una muestra completa de inmediato equivale a muestrear sin reposición. Cuando se muestrea con reposición es posible obtener el mismo resultado mas de una vez, en tanto que tomando la muestra total de una vez, seria imposible que eso sucediera. 6 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 1.2 Muestreo aleatorio con reposición Sobre una población E de tamaño N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extraído es repuesto al total de la población. De esta forma un elemento puede ser extraído varias veces. Si el orden en la extracción de la muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es: Si el orden no interviene, la probabilidad de una muestra cualquiera, será la suma de la anterior, repitiéndola tantas veces como manera de combinar sus elementos sea posible. Es decir, Sea n1 el número de veces que se repite cierto elemento e1 en la muestra; e2; Sea n2 el número de veces que se repite cierto elemento Sea nk el número de veces que se repite cierto elemento ek, de modo que la muestra . Entonces la probabilidad de obtener es 7 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C es decir, El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple, que se caracteriza por que cada elemento de la población tiene la misma probabilidad de ser elegido, y las observaciones se realizan con reemplazamiento. De este modo, cada observación es realizada sobre la misma población (no disminuye con las extracciones sucesivas). Sea X una variable aleatoria definida sobre la población E, y f(x) su ley de probabilidad. En una muestra aleatoria simple, cada observación tiene la distribución de probabilidad de la población: Además todos las observaciones de la variable aleatoria son independientes, es decir 1.3 Muestreo aleatorio sin reposición Consideremos una población E formada por N elementos. Si observamos un elemento particular, , en un muestreo aleatorio sin reposición se da la siguiente circunstancia: 8 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C La probabilidad de que e sea elegido en primer lugar es Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de ; ), la probabilidad de que sea elegido en el segundo intento es de . en el (i+1)-ésimo intento, la población consta de N-i elementos, con lo cual si e no ha sido seleccionado previamente, la probabilidad de que lo sea en este momento es de . Si consideramos una muestra de elementos, donde el orden en la elección de los mismos tiene importancia, la probabilidad de elección de una muestra cualquiera es Lo que corresponde en el sentido de la definición de probabilidad de Laplace a un caso posible entre las n posibles n-uplas de N elementos de la población. Si el orden no interviene, la probabilidad de que una muestra 9 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en el orden de sus elementos sean posibles, es decir Existen varias razones por las que el muestreo sin reposición se lleva a cabo en la práctica real: Los efectos pueden ser insignificantes y puede ser más conveniente hacerlo así. Si se realizan ensayos destructivos. En el muestreo industrial será difícil persuadir a los inspectores carentes de adiestramiento en estadística de que regresen los elementos muestreados a la población, particularmente si éstos están defectuosos. Cuando se regresa un objeto muestreado a la población, existe una posibilidad de que sea incluido en un ensayo subsiguiente. 1.4 Muestreo aleatorio estratificado Un muestreo aleatorio estratificado es aquel en el que se divide la población de N individuos, en k subpoblaciones o estratos, atendiendo a criterios que puedan ser importantes en el estudio, de tamaños respectivos N1, ..., Nk, 10 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Y realizando en cada una de estas subpoblaciones muestreos aleatorios simples de tamaño ni. . A continuación nos planteamos el problema de cuantos elementos de muestra se han de elegir de cada uno de los estratos. Para ello tenemos fundamentalmente dos técnicas: la asignación proporcional y la asignación optima. 1.4.1 Ejemplo Supongamos que realizamos un estudio sobre la población de estudiantes de una Universidad, en el que a través de una muestra de 10 de ellos queremos obtener información sobre el uso de barras de labios. En primera aproximación lo que procede es hacer un muestreo aleatorio simple, pero en su lugar podemos reflexionar sobre el hecho de que el comportamiento de la población con respecto a este carácter no es homogéneo, y atendiendo a él, podemos dividir a la población en dos estratos: Estudiantes masculinos (60% del total); Estudiantes femeninos (40% restante). De modo que se repartan proporcionalmente ambos grupos el número total de muestras, en función de sus respectivos tamaños (6 varones y 4 mujeres). Esto es lo que se denomina asignación proporcional. Si observamos con más atención, nos encontramos (salvo sorpresas de probabilidad reducida) que el comportamiento de los varones con respecto al carácter que se estudia es muy homogéneo y diferenciado del grupo de las mujeres. Por otra parte, con toda seguridad la precisión sobre el carácter que estudiamos, será muy alta en el grupo de los varones aunque en la muestra haya muy pocos (pequeña varianza), mientras que en el 11 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C grupo de las mujeres habrá mayor dispersión. Cuando las varianzas poblacionales son pequeñas, con pocos elementos de una muestra se obtiene una información más precisa del total de la población que cuando la varianza es grande. Por tanto, si nuestros medios sólo nos permiten tomar una muestra de 10 alumnos, será más conveniente dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple cierto número de individuos de cada estrato, de modo que se elegirán más individuos en los grupos de mayor variabilidad. Así probablemente obtendríamos mejores resultados estudiando una muestra de 1 varón. 9 hembras. Esto es lo que se denomina asignación óptima. 1.4.2 Asignación proporcional Sea n el número de individuos de la población total que forman parte de alguna muestra: Cuando la asignación es proporcional el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato correspondiente con respecto a la población total: 12 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 1.4.3 Asignación óptima Cuando se realiza un muestreo estratificado, los tamaños muestrales en cada uno de los estratos, ni, los elige quienes hace el muestreo, y para ello puede basarse en alguno de los siguientes criterios: Elegir los ni de tal modo que se minimice la varianza del estimador, para un coste especificado, o bien, Habiendo fijado la varianza que podemos admitir para el estimador, minimizar el coste en la obtención de las muestras. Así en un estrato dado, se tiende a tomar una muestra más grande cuando: El estrato es más grande; El estrato posee mayor variabilidad interna (varianza); El muestreo es más barato en ese estrato. 1.5 Muestreo Sistemático Cuando los elementos de la población están ordenados en fichas o en una lista, una manera de muestrear consiste en Sea Elegir aleatoriamente un número m, entre 1 y k; Tomar como muestra los elementos de la lista: ; 13 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Esto es lo que se denomina muestreo sistemático. Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos más parecidos tienden a estar más cercanos, el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que recorre la población de un modo más uniforme. Por otro lado, es a menudo más fácil no cometer errores con un muestreo sistemático que con este último. 1.5.1 Ejemplo Si los elementos de la lista no están dispuestos en un orden particular, el muestreo sistemático puede dar lugar a un muestreo aleatorio, muestreando cada elemento k-ésimo de la lista, en el cual k se obtiene, dividiendo el tamaño de la población entre el tamaño de la muestra (estos es, k = N/m). De este modo, si N es igual a 200 y n es igual a 10, entonces k = 200/10 = 20. Esto significa que se muestreará un elemento de cada secuencia de 20. 1.6 Muestreo por conglomerados Si intentamos hacer un estudio sobre los habitantes de una ciudad, el muestreo aleatorio simple puede resultar muy costoso, ya que estudiar una muestra de tamaño n implica enviar a los encuestadores a n puntos distintos de la misma, de modo que en cada uno de ellos sólo se realiza una entrevista. En esta situación es más económico realizar el denominado muestreo por conglomerados, que consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad, para después elegir calles y edificios. Una vez elegido el edificio, se entrevista a todos los vecinos. Nota: A modo de advertencia, se requiere de una simplificación cuidadosa y de un conocimiento amplio para emplear estas técnicas de muestres, en particular para determinar qué elementos de una 14 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C población muestrear, y decidir como interpretar los resultados muestrales. 1.7 Ejercicios 1.1 Explique que es el muestreo. 1.2 Defina los siguientes muestreos a) Conglomerado b) Estratificado c) Aleatorio 1.3 Enuncie las razones por la que en la práctica real es más importante llevar a cabo un muestreo sin reposición. 1.4 Defina muestra y población. 1.5 Cual es el objetivo de la teoría del muestreo. 15 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C II. TEORÍA DE LA ESTIMACION El curso de probabilidad ha proporcionado los conceptos básicos de la probabilidad y de las distribuciones de probabilidad. El objetivo de esta unidad es mostrar como a través de las distribuciones de muestreo es posible hacer inferencias acerca de la población, a partir de valores observados de las estadísticas muéstrales. La inferencia estadística acerca de los parámetros poblacionales, puede efectuarse mediante la estimación del valor de un parámetro, tema de esta unidad, o por pruebas de hipótesis respecto de su valor, lo cual es material específico de la unidad III. La teoría de la estimación estadística consiste de aquellos métodos por los cuales se realizan inferencias o generalizaciones acerca de la población. Esto se puede realizar mediante el método clásico a partir de una muestra aleatoria de la población, y el método bayesiano, el cual utiliza conocimiento subjetivo previo acerca de la distribución de probabilidad de parámetros desconocidos, junto con la información muestral. La estimación bayesiana no se incluye en esta obra. 2.1. Estimación y propiedades de los estimadores La estimación puede dividirse en dos clases, estimación puntual y estimación por intervalos. Suponga que un vendedor de computadoras quiere estimar la ganancia promedio en la venta de cierto modelo de la marca X. La estimación se podría efectuar a través de un solo numero, por ejemplo 18%, o estimar una ganancia entre el 12 y 20% dependiendo del cliente y el volumen de compra. El primer caso es una estimación puntual, toda vez que representa un único valor y el segundo caso corresponde a una estimación por intervalo y representa a todas las posibles ganancias que hay entre el 12 y el 20% El procedimiento de estimación puntual utiliza la información de la muestra para obtener un solo número o punto que estima el parámetro objetivo. El procedimiento de estimación por intervalo hace uso de la información de la muestra para obtener dos números que se supone 16 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C van a incluir el parámetro de estudio. En cada caso la estimación real se hace mediante un estimador que es una regla que establece como utilizar los datos de la muestra, para determinar el valor (o valores) que utilizamos como estimación puntual (o por intervalo). Comúnmente un estimador se expresa mediante una formula. Por ejemplo: la media muestral. n x x i 1 i n Si se desea obtener una estimación por intervalo de un parámetro, se tiene que utilizar los datos de la muestra para calcular dos puntos. Con los cuales se espera con una probabilidad alta que el parámetro objetivo se encuentre en el intervalo que forman dichos puntos. 2.2.Estimación puntual. Propiedades La estadística se ocupa en gran medida con la toma de inferencias de parámetros poblacionales, inferencias que son inciertas debido a que se basan en comprobaciones obtenidas de las muestras. Considérese el problema de la estimación de parámetros. Por ejemplo, se puede conocer la media de calificaciones otorgadas por un profesor en determinada materia, o la variabilidad en el tiempo promedio de duración de las pilas de una calculadora. Para encontrar dichos estirnadores debemos conocer primero la distribución del fenómeno en estudio, para proponer un estimador de los parámetros poblacionales que definen a dicha distribución. En la practica, sin embargo, en raras ocasiones tendremos que preocuparnos por la formulación de nuevos estimadores, ya que esto es tarea de los estadísticos teóricos; nuestro objetivo es pues la selección del estimador apropiado. Si nos concentramos por obvias razones en la distribución normal, es bien claro que la media muestral X es un estimador de la media 17 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C poblacional y que la varianza muestral S2 es un estimador de la varianza poblacional , especialmente si consideramos la sencillez de su cálculo. Naturalmente, éstos no son los únicos estimadores de esos parámetros. ¿Hasta donde son estos estadísticos buenos estimadores de esos parámetros?. El problema ahora consiste en seleccionar la “mejor” fórmula, pero primero debemos definir el concepto “mejor”. En vez de definir "mejor", considérense varias propiedades deseables v trátese de tener el mayor número de ellas asociadas con la elección de un estimador. Por ejemplo, insesgamiento exige que la media de todas las posibles estimaciones sea el parámetro que se estima. La media de una población de X es , el parámetro que se estima para la población principal, de modo que X es un estimador no sesgado de . La media de una población de S2 o sea S2, es así que S2 es un estimador no sesgado de . Sin embargo, si el denominador empleado en la varianza es n en vez de n - 1, entonces la estimación es sesgada. El sesgo no es un problema grave si se conoce su magnitud. Este sería el caso si n fuese el divisor en la estimación de . El sesgo es serio cuando se desconoce su magnitud, ya que no se puede hacer ningún tipo de corrección para el mismo. No obstante su importancia el criterio de insesgamiento no puede ser único, ya que para un parámetro puede tener varios estimadores insesgados, quedando el problema de decidir cual de ellos es el mejor, en algún sentido, que los demás. Considere los estimadores insesgados de un parámetro cuyas funciones de probabilidad se presentan en la figura 2. 2. Figura 2.1. Distribución de los estirnadores insesgados para el parámetro 18 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Observe que tanto los dos estimadores de son estimadores insesgados. Sin embargo presenta una varianza comparativamente menor que , lo cual se prefiere. Se dice, entonces que el estimador es más eficiente que dado que tiene varianza minina. La sencillez del cálculo constituye otra propiedad deseable. Toda estimación que se encuentra mediante adición y substracción de múltiplos de observaciones se llama función lineal de ellas. La media es una función lineal mientras que la varianza y la desviación estándar no son funciones lineales. Es claro que las funciones lineales son fáciles de calcular. Dado que la utilidad de un estimador depende de su varianza, lo usual es reportar el estimador y su desviación estándar. La varianza de X es n, y en general será desconocida, por lo que se reportara la varianza estimada de X, es decir S2x, = S2/n, mediante la ecuación: 2S x x n 2.2.1 Ejemplo 2.1. La agencia para la Protección Ambiental (EPA) y la Universidad de Florida cooperaron recientemente en cierto estudio de los posibles efectos de oligoelementos en agua potable con respecto a la forma de cálculos renales. Enseguida se indican datos con respecto a la edad, la concentración de calcio en el agua potable para consumo casero (medida por partes por millón), y, el habito de fumar. Se obtuvieron datos de individuos con problemas recurrentes de cálculos renales que viven en los estados de ambas Carolinas y en los estados de las Montañas Rocallosas. Tamaño de muestra Edad promedio Desviación estándar de la edad Concentración promedio de calcio Desviación estándar para calcio Proporción de fumadores CAROLINAS ROCALLOSAS 467 45.10 10.20 11.30 16.60 0.780 191 46.40 9.80 40.10 28.40 0.61 19 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C (a) Estimar la concentración media de calcio en el agua potable para los pacientes con cálculos en las Carolinas. Establecer un límite para el error de estimación. x 2S 2 *16.6 11.30 11.30 1.5363 (9.7637,12.8363) n 467 (b) Estimar la diferencia en el promedio de las edades de los pacientes con cálculos renales en las Carolinas y en las Rocallosas. Establecer un límite de error de estimación. X Y 2 S X2 SY2 10.2 2 9.8 2 45.10 46.4 2 1.3 1.7036 (3.0036,0.4036) n n 467 191 (c) Estimar y establecer un límite de dos desviaciones estándar para la diferencia en las proporciones de los pacientes con cálculos renales en las Carolinas y en las Rocallosas que eran fumadores al momento del estudio. ( pˆ 1 pˆ 2 ) 2 (0.78 0.61) 2 pˆ 1qˆ1 pˆ 2 qˆ 2 n m 0.78* .22 0.61* 0.39 0.17 0.083 (0.087,0.253) 467 191 2.2 Un auditor se encuentra interesado en conocer el importe de las cuentas por cobrar en cierta empresa. Para estimar está deuda obtiene una muestra aleatoria de 20 cuentas por cobrar de las 500 cuentas de dicha empresa. Los datos se presentan de la manera siguiente (cantidades en dólares). 20 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Cuenta 1 2 3 4 5 6 7 8 9 10 Cantidad 278 192 310 94 86 335 310 290 221 168 Cumplimiento Sí Sí Sí No Sí Sí No Sí Sí Sí Cuenta 11 12 13 14 15 16 17 18 19 20 Cantidad 188 212 92 56 142 37 186 221 219 305 Cumplimiento No No Sí Sí Sí Sí No Sí No Sí ¿Considera usted que una cuenta por cobrar promedio de la firma excede a 250 dólares? x 2S x n 197.1 40.6326 (156.4674,237.7326) 2.3 Refiérase al ejercicio 2.2. A partir de los datos en la verificación del cumplimiento, estime la proporción de las cuentas de la empresa que no cumplen con los procedimientos establecidos. Establecer un límite para el error de estimación. ¿Considera que la proporción de cuentas que cumplen con los procedimientos excede el 80%? 14 6 pˆ qˆ 6 20 20 pˆ 2 1 2 0.7 0.2049 (0.4951,0.9049) n 20 20 2.4 Un incremento en la tasa de ahorro de los consumidores se relaciona frecuentemente con una falta de confianza en la economía y se afirma que es un indicador de una tendencia de recesión en la economía. Una muestra aleatoria de 200 cuentas de ahorro en cierta comunidad mostró un incremento medio en los montos de las cuentas de ahorro de 7.2% en los últimos 12 meses V una desviaci6n estándar de 5.6%. Estimar la media del incremento porcentual en el monto de 21 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C las cuentas de ahorro en los últimos 12 meses para los ahorradores de la comunidad. Establecer un límite para el error de estimación. pˆ 2 pˆ qˆ 2 * 5.6 7.2 (6.4080,7.9919) n 200 2.3 Estimación por intervalos y propiedades Un estimador puntual es con frecuencia inadecuado como estimación de un parámetro, ya que raramente coincide con el parámetro. Una situación alternativa es la estimación por intervalos de la forma [Li, Ls], donde Li es el limite inferior y Ls es el limite superior. Un estimador por intervalo es una regla que especifica el método que utiliza las mediciones de la muestra para calcular los números que forman los extremos del intervalo. En el caso ideal seria conveniente que el intervalo tuviera dos propiedades. 1 ) El intervalo contenga el parámetro-objetivo 2) Intervalos relativamente estrechos tamaño de muestra. Lo cual depende del valor de y del tamaño de la muestra. Los estimadores por intervalo se denominan comúnmente como intervalos de confianza. La probabilidad de que un intervalo contenga a se conoce como coeficiente de confianza. Desde un punto de vista practico, el coeficiente de confianza indica la fracción de veces que en un muestreo repetitivo, los intervalos construidos contendrían el parámetro-objetivo . P(Li < < Ls)=1- donde 1 - Coeficiente de confianza 22 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C P(Li < < Ls) = Intervalo de confianza bilateral El significado de lo anterior puede describirse de la siguiente forma: Considere es necesario conocer la producción lechera promedio () de cierta región. Suponga que se propone calcular un intervalo de confianza del 90% de dicha producción (mediante las técnicas descritas en secciones posteriores). Entonces después de realizar múltiples muestreos, podemos esperar que el 90% de los límites calculados contendrán el parámetro es decir la producción promedio de dicha región. En la practica solo se realiza una vez el muestreo, entonces con una confianza de 100 (1 - ) veces de 100, el intervalo contendrá el parámetro y 100 veces no lo contendrá 2.4 Intervalos de confianza para . La construcción de intervalos de confianza permite estimar el valor de un parámetro ante la imposibilidad de calcular el valor real. Mediante el uso de las funciones de distribución derivadas del muestreo efectuaremos la estimación cuando se muestrea de una población que se distribuye normal, ya sea que se conozca o no la varianza poblacional. Así mismo la técnica se aplica a distribuciones discretas que por el tamaño de la muestra pueden ser aproximadas a una distribución normal. Por último se describen intervalos de confianza para la diferencia de medias. 2.4.1 Intervalo de confianza para con varianza conocida ( Se X1, X2,...Xn una muestra aleatoria de una distribución normal con media desconocida El interés es construir un intervalo de confianza de 100 ( 1 - ) % para con varianza conocida 2. La construcción 23 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C de dicho intervalo se hace con base al mejor estimador de , explícitamente la media muestral X . Sabemos que Z x N (0,1) n Si se toman los valores Z escribirse /2 y Z1-en la distribución Z, puede X Z Z1 / 2 P Z / 2 Z1 / 2 1 n PZ / 2 Lo cual se ilustra en la figura 2.4.1 Figura 2.4.1 Derivación de un intervalo de confianza para en una población con distribución normal Multiplicando por n y despejando se obtiene Z1 / 2 Z X 1 / 2 1 X n n 24 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C En términos generales, un intervalo de 100(1-) de confianza para estará dado por x X X Z , X Z / 2 / 2 n n Donde Z/2 es el punto que deja a su izquierda 100(/2) % de la densidad normal estándar. Los pasos para construir un intervalo de confianza para la media de una distribución normal con varianza 2x conocida, son: 1 Elegir el nivel de confianza (1 - ) al cual se desea realizar la inferencia, considerando que a mayor confianza elegida mayor longitud de intervalos por lo tanto mayor precisión en la estimación. 2 Obtener el valor Z/2 de las tablas de la normal estándar. 3 Efectuar el cálculo de la media muestral. 4 Calcular los extremos del intervalo. En la interpretación de un intervalo de confianza es necesario notar que antes de obtener una muestra existe una probabilidad 100(1-a), de que el parámetro se encuentre dentro de los limites aleatorios que definen un intervalo; una vez obtenida la muestra, no hablamos en términos de probabilidad, sino de la confianza de que el parámetro se encuentre en el intervalo calculado. Es decir una vez computado el intervalo de confianza solo son posibles dos resultados: contiene o no el parámetro. De contenerlo el intervalo no proporciona información del verdadero valor, simplemente decimos que con 100(1-) de nuestra confianza el parámetro se encuentra dentro de dicho intervalo. Para justificar los argumentos anteriores considera el peso de los alumnos de cierta universidad, de los cuales se tiene información 25 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C histórica que = 63.5 y = 9.283. Se seleccionaron al azar 10 muestras de tamaño 5 y se calcula la media (X) para construir un intervalo de confianza de 95% dado por X ± 1.96(9.283) / 5 , los resultados se muestran en el cuadro 2.4. Observe que de estos 10 intervalos, solo el intervalo para la muestra dos no incluye el valor de la media poblacional (63.5 kg). Note el 90% de los intervalos calculados contiene lo cual esta cercano al coeficiente de confianza del 95%. Por lo cual deducimos que si extraemos una muestra y establecemos un intervalo de confianza, tendremos una confianza alta de que dicho intervalo incluirá el parámetro. Se habrá notado que el tamaño de la muestra se considera conocido en la estimación de un intervalo de confianza. El tamaño de muestra se fija en función del tiempo, la economía y la disponibilidad del material en estudio. Entonces es primordial obtener un tamaño de muestra óptimo, para generar estimaciones adecuadas sin derrochar recursos. Dado que mientras mayor sea el tamaño de muestra que se utilice, menor sería la longitud del intervalo de confianza y en consecuencia habrá mayor precisión en la estimación. El cálculo del tamaño de muestra es de gran interés y existen diversas formas de calculo para lo cual es necesario indicar tanto la exactitud como la precisión deseadas, mediante valores permisibles del error y del nivel de confianza. Se presentan una de ellas a través de la expresión Z1 Z1 2 2 1 P X X n n La cual puede rescribirse como Z1 Z1 2 2 1 P X n n 26 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Z1 2 P X 1 P X n donde Z 1 / 2 n al despejar no obtenemos la ecuación que buscamos Z 1 2 n 2 Note que en la ecuación anterior es necesario conocer el valor de la varianza poblacional, situación que puede ser irreal, lectores interesados en el tenia pueden consultar el excelente libro de Scheaffer. 2.4.1.1 Ejercicios 2.5. Se midió la resistencia a la ruptura por torcimiento de un cierto tipo de tela en un lote con los siguientes resultados (en psi): 182, 172, 176, 178. La desviación estándar basada en la experiencia previa es de 5 psi, Encuentre un intervalo de confianza del 99% para la resistencia promedio de la ruptura por torcimiento del lote. Respuestas P[170.5625<<183.4375]=0.99 2.6. Un fabricante de fibras sintéticas que desea estimar la tensión de ruptura media de una fibra. Diseña un experimento para observar las 27 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C tensiones de ruptura en libras, de 1 6 hilos del proceso seleccionados azar. Las tensiones son 20.8, 20.6, 21.0, 20.9, 19.9, 20.2, 19.8, 19.6, 20.9,.21.1, 20.4, 20.6, 19.7, 19.6, 20.3 v 20.7. Supóngase que la tensión de ruptura de una fibra se encuentra modelada por una distribución normal con desviación estándar de 0.45 Libras. Construir un intervalo de confianza estimado del 98% para la tensión de ruptura promedio de la fibra. Respuesta [20.1196,20.6427] 2.7. Los siguientes datos representan medidas de porosidad en una muestra de un cargamento de coque. Encuentre un intervalo de confianza del 95% para la media verdadera. Suponga que = 0.25. , 2.16, 2.07, 2.34, 1.97, 1.97, 1.90, 2.19, 2.23, 2.15, 2.47, 2.31, 1.94, 2.31, 1.86, 2.25, 2.14, 2.15, 2.161 2.30, 2.48, 2.11, 2.15, 2.24, 2.04, 2.21, 1.91, 2.01, 2.09, 2.07, 2.25 Respuesta [2.0581, 2.2370] 2.8 Se desea estimar el número medio de horas de uso continuo antes de que cierto tipo de computadora requiera una reparación inicial. Si podemos suponer que = 20 días, ¿De que tamaño debe ser una muestra a fin de suponer con una confianza del 90% que la media muestral difiera a lo más 5 días? Respuesta [ 44] 2.9 El director administrativo de un colegio desea usar la media de una muestra aleatoria para estimar la cantidad promedio de tiempo que tardan los alumnos en ir de una clase a la siguiente, y además quiere poder asegurar con una confianza del 99% que el error es a lo más de 0.25 minutos. Si se supone por experiencia =. 1.4 minutos, ¿ Qué tamaño debe tener la muestra? 28 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Respuesta [208] 2.10. Una tienda de donas se interesa es estimar su volumen de ventas diarias. Supóngase que el valor de la desviación estándar es de $50. Si el volumen de ventas se encuentra aproximado por una distribución normal, a) ¿Cuál debe ser el tamaño de la muestra para que con una probabilidad de 0.95 la media muestral se encuentre a no más de $20 del verdadero volumen de ventas promedio? Respuesta [25] b) Si no es posible suponer que la distribución es normal, obtener el tamaño necesario de la muestra para la pregunta a. Respuesta [125] 2.4.2 Intervalos de confianza para con varianza desconocida (2) En esta sección tratamos la forma de construir un intervalo de confianza para la media de una distribución normal con varianza desconocida. Es necesario que el supuesto de normalidad es una restricción que debe cumplirse para que las inferencias que realicemos sean válidas. Es decir la calidad de nuestras inferencias será función del tamaño de muestra y de la semejanza de la distribución de la población de la cual se muestrea a la distribución normal. Encontramos la distribución de muestreo cuando la media y la varianza 2 son desconocidos, la variable aleatoria T X S n 29 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C tiene una distribución t de Student con n - 1 grados de libertad. Si se toman valores t/2,(n-1) y -t/2,(n-1) en la distribución t, con t(n-1) grados de libertad puede escribirse: X P t ,n1 t t ,n1 P t ,n1 t ,n1 1 2 S 2 2 2 n Lo cual se ilustra en la figura 2.4. 2 2.4.2 Derivación de un intervalo de confianza para en una población con distribución normal Después de despejar se obtiene t ,n1 S x t ,n1 S x 2 1 P X X 2 n n En términos generales, un intervalo de 100(1 - ) de confianza para estará dado por t ,n1 S x t ,n1 S x X 2 ,X 2 n n 30 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C donde t/2,(n-1) es el punto que deja a su derecha 100(/2) % de la densidad t de Student con n - 1 grados de libertad. Los pasos para construir un intervalo de confianza para la media de cuando no se conoce la varianza 2X, son: 1. Elegir el nivel de confianza (1 - a) al cual se desea realizar la inferencia, considerando que a mayor confianza elegida, mayor longitud de intervalo y por lo tanto menor precisión en la estimación. 2. Obtener el valor t Student. /2,(n-1) de las tablas de la distribución t de 3. Efectuar el cálculo de la media y desviación estándar muestral. 4. Calcular los extremos del intervalo. La interpretación asociada al intervalo nos indica que con una confianza del 100 (1 - )%, el intervalo calculado contendrá al parámetro. Es decir a la media poblacional . 2.4.2.1 Ejercicios 2.1 1. El crecimiento del tronco principal para una muestra de 17 pinos rojos de 4 años, tiene una media de 11.3 pulgadas y una desviación estándar de 3.4 pulgadas. Obtenga un intervalo de confianza de 90% para la media del crecimiento del tronco principal para una población de pinos rojos de 4 años sujeta a condiciones ambientales similares. Supóngase que el crecimiento tiene una distribución normal. Respuesta (9.8602,12.7397) 31 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 2.12. En un proceso químico se han producido, en promedio 800 toneladas de cierto producto por día. Las producciones diarias para la semana pasada fueron 785, 805, 790, 793 y 802 toneladas. Estimar a partir de los datos la media de la producción diaria con un coeficiente de confianza de 90 %. Respuesta (787.0528, 802.947) 2.13. Debido a la variabilidad en los descuentos por los automóviles entregados a cambio, la ganancia por auto nuevo vendido por un distribuidor de automóviles varia de uno a otro. Las ganancias por ventas (en cientos de dólares); registradas la semana pasada, fueron 2.1, 3.0, 1.2, 6.2, 4.5 y 5.1. Obtener un intervalo de confianza de 95% para la ganancia media por venta. Respuesta (1.684, 5.6825) 2.14. Se registro el tiempo transcurrido entre la facturación y el pago recibido, para una muestra aleatoria de 91 clientes de una empresa de contadores públicos. La media y la desviación estándar de dicha muestra fueron 39.1 días y 17.3 días, respectivamente. Obtener un intervalo de confianza de 90% para el tiempo medio que transcurre entre la facturación y el pago recibido para todas las cuentas de las firmas de contadores públicos. Interpreta el resultado. Respuesta (36.089, 42.114) Interpretación nueve de cada diez veces, el tiempo transcurrido entre la facturación y el pago será aproximadamente entre 36 y 43 días. 2.15. La cámara de comercio de una ciudad se interesa en estimar la cantidad promedio de dinero que gasta la gente que asiste a 32 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C convenciones, calculando comidas, alojamiento y entretenimiento por día. De las distintas convenciones que se llevan a cabo en la ciudad, se seleccionaron 16 personas de las que se obtuvo la siguiente información en dólares: 150, 175, 163, 148, 142, 189, 135, 174, 168, 152, 158, 184, 134, 146, 155, 163. Si, se supone que la cantidad de dinero gastada en un día es una variable aleatoria distribuida normal, obtener los intervalos de confianza estimados del 90, 95 y 98% para la cantidad promedio real. Respuestas (151.3055, 165.6944), (149.753,167,2469), (147.8197, 169.182) 2.16. Los pesos de la fruta contenida en 21 latas de duraznos seleccionadas al azar fueron (en onzas): 11.0, 11.6, 10.9, 12.0, 11.5, 12.0, 11.2, 10.5, 12.2, 11.8,12. 1, 11.6, 11.7, 11.6, 11.2, 12.0, 11.4, 10.8, 11.8, 10.9 y 11.4. Determine el intervalo de confianza de 98%,para estimar el peso promedio por lata de los duraznos. Respuesta (11.2238,11.7475) 2.4.3 Intervalo de confianza para el parámetro de proporción p cuando se muestrea una distribución binomial. Se menciono que una aplicación importante del teorema del límite central, es la aproximación de distribuciones discretas a la normal cuando el tamaño de muestra es suficientemente, grande. Entonces es posible construir un intervalo de confianza para una proporción a través de la variable aleatoria. pˆ p pˆ (1 pˆ ) n 33 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C De esta forma la probabilidad 1 - del intervalo aleatorio para una proporción esta dada por: P pˆ Z1 2 pˆ (1 pˆ ) p pˆ Z 1 2 n pˆ (1 pˆ ) 1 n En términos generales, un intervalo de 100(1-) de confianza para p estaría dado por pˆ Z1 2 pˆ (1 pˆ ) , pˆ Z 1 2 n pˆ (1 pˆ ) n Si deseamos corregir por continuidad el intervalo de 100(1 – )% de confianza para p está dada por pˆ Z1 2 pˆ (1 pˆ ) 1 , pˆ Z 1 2 n 2n pˆ (1 pˆ ) 1 n 2n cuyo uso es recomendable. Note que el factor 1/2n amplia el intervalo en la misma proporción para cada extremo del intervalo; si n es muy grande la corrección por continuidad será prácticamente nula, por lo cual podríamos omitir su aplicación. Se menciona que estos intervalos se derivan a partir del supuesto que la muestra es suficientemente grande; el cuadro 2.4.3.1 nos facilita la decisión de cuando un tamaño de muestra es grande o no. Cuadro 2.4.3.1. Tamaños de muestra apropiadas para usar la aproximación Normal Si p es igual a La aproximación Normal será razonablemente si n es al menos 0.5 30 0.4 0 0.6 50 34 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 0.3 o 0.7 0.2 o 0.8 0.1 o 0.9 0.05 o 0.95 80 200 600 1000 2.4.3.1.1 Ejercicios 2.17. Se hizo un estudio en relación con la ratificación de un dirigente sindical. En respuesta a la pregunta "Si Votaría por ratificar al dirigente?", hubo 250 respuestas “si"; 125 , "no", y 75 respuestas indecisas. Halle una estimación para la proporción poblacional que votará por ratificar al dirigente utilizando un intervalo de confianza de 95%. Respuesta (0.5096,0.6014) 2.19. El departamento de análisis de mercados de una compañía productora de café instantáneo realizó un estudio entre hombres casados para determinar la proporción de éstos que prefieren su marca.Veinte de 100 entrevistados contestaron afirmativamente. Utilice un intervalo de confianza del 95% para estimar la proporción de todas los varones casados que prefieren la marca de café instantáneo. Respuesta (0.107,0.293) 2.4.4. intervalos de confianza para la diferencia de medias cuando se muestrean dos distribuciones normales e independientes Discutiremos a continuación la estimación por intervalos de la diferencia de medias de dos muestras independientes que provienen de poblaciones que se distribuyen normalmente. Existen dos casos, dependiendo del conocimiento de la varianza poblacional. 35 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Sean X1.X2,...Xn e Y1, Y2.. Yn dos muestras aleatorias de dos distribuciones normales independientes, con medias x y y y varianzas 2x y 2y respectivamente. Se desea construir un intervalo de confianza para la diferencia x - m. Supóngase que conocidas las varianzas poblacionales 2x y 2y Entonces de los resultados obtenidos en la variable aleatoria Z X Y ( x y ) 2 x nx y2 N (0,1) ny De tal forma que si seguimos los procedimientos empleado en los incisos anteriores, el intervalo aleatorio de 100 (1 – ) % de confianza para x – y esta dado por 2 2 x2 y x2 y P X Y Z (1 ) x y X Y Z (1 ) 1 2 2 nx n y nx n y Entonces el intervalo de confianza del 100 (1 – ) % para x – y es 2 2 x2 y x2 y X Y Z (1 ) , X Y Z (1 ) 2 2 nx n y nx n y Si las varianzas poblacionales se desconocen pero son iguales (x = y) entonces la variable aleatoria 36 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C T X Y ( x y ) 1 1 Sp n m t 2 ,n m2 Tiene distribución t de Student con k = nx + ny – 2 grados de libertad. En donde la estimación combinada de la varianza es dada por Sp (n 1) S x2 (m 1) S y2 nm2 Al despejar x – y el intervalo de resultante es igual a 100 (1 – ) % de confianza 1 1 1 1 , X Y t 2,n m2 Sp , X Y t 2,n m2 Sp n m n m Es necesario considerar que es indiferente que muestra es X y cual es Y. lo más importante es la interpretación de los signos del intervalo. Si ambos extremos son positivos, X > Y. Si ambos son negativos, X < Y. En el caso de signos diferentes, el extremo izquierdo expresa la máxima diferencia por la que Y supera a X y el extremo derecho la máxima diferencia por la que X es mayor que Y. 2.4.4.1 Ejercicios 2.20. Se aplicó un examen de matemáticas a un grupo de 50 alumnos seleccionados al azar de la secundaria A y a un grupo de 45 de estudiantes seleccionados al azar de la secundaria B. El grupo de la secundaria, A obtuvo una media de 75 puntos con una desviación 37 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C estándar de 10 puntos. El grupo de la secundaria B logró una media 72 puntos con una desviación de 8 puntos. Construir un intervalo de confianza del 95% para la diferencia en los resultados medios. Respuesta Sp= 9.1086, (-0.6684, 66684) 2.21. Una comparación de los tiempos de reacción a dos estímulos diferentes en un experimento psicológico de asociación de palabras aplicado a una muestra aleatoria de 16 personas, produjo los resultados (en segundos) que se muestran en la siguiente tabla. Obtener un intervalo de confianza de 90% para (1 – 2) Estimulo Tiempo de reacción (en segundos 1 1 2 3 1 2 3 1 2 2 4 1 3 3 2 2 3 3 Respuesta Sp 0.8767, (-1.5216.0.0216) 2.22 Estime un intervalo de confianza del 95 % la diferencia del coeficiente de inteligencia (IQ) entre los miembros mas viejos y más jóvenes (hombres y mujeres) de una familia tomando como base la siguiente muestra aleatoria de sus IQ. Mas viejos 145 133 116 128 85 100 105 150 97 110 120 130 Mas 131 119 103 93 108 100 111 130 135 113 108 125 jóvenes Respuesta Sp=16.8993, (10.7181.17.8981) 38 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 2.23. Se aplicaron 2 métodos para enseñar la lectura a dos grupos de niños de una escuela primaria y se compararon los resultados mediante una prueba de lectura y comprensión. El método 1 se aplicó a 11 niños para los cuales se obtuvo una media y una desviación estándar de 64 y 52 puntos respectivamente. El método 2 se probó en 14 niños que al final de la prueba obtuvieron una media de 69 y una desviación estándar de 71 puntos. Obtener un intervalo de confianza de 95% para (1 - 2). Respuesta Sp=7.9208, (-1.6020,11.6020) 2.24. Se administraron dos nuevos medicamentos a pacientes con cierto padecimiento cardiaco. El primer medicamento bajo la presión sanguínea de 16 pacientes en un promedio de 11 puntos, con una desviación estándar de 6 puntos. El segundo fármaco disminuyó la presión sanguínea de 20 pacientes en un promedio de 12 puntos, con una desviación estándar de 8 puntos. Desarrollar un intervalo de confianza del 95% para la diferencia en la reducción media de la presión sanguínea, bajo el supuesto que las mediciones se distribuyen normales con varianzas iguales. Respuesta Sp=7.1866, (-5.89,3.89) 2.25. Se midieron las presiones sanguíneas diastólicas de 15 pacientes utilizando dos técnicas: el método estándar utilizado por personal medico y otro método que utiliza un aparato electrónico con indicador digital. Los resultados fueron los siguientes: Método Estándar Indicador digital Paciente 72 80 88 80 80 75 92 77 80 65 69 96 77 75 60 70 76 87 77 81 75 90 75 82 64 72 95 80 70 61 39 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Determine el intervalo de confianza del 90% para la diferencia media de las dos lecturas Respuesta Sp= 9.7119, (5.3026,6.7626) 2.5 Intervalo de confianza para 2 Considere ahora el problema de construir un intervalo de confianza para la varianza de la población (2) cuando se muestrea de una población con distribución normal. Encontramos que la distribución de muestreo asociada con la varianza muestral (S2) es chi-cuadrada con n - 1 grados de libertad. Usando la distribución 2(n – 1), podemos encontrar los valores 2,(n-1) y (n-1) tales que P[(n-1) <n-1 < 2,(n-1) ]= 1 - Donde 2 (n – 1) =( n – 1) S2/2, según se expone en la figura 2.5.1 (n-1) 2,(n-1) Figura 2.5.1 intervalo de confianza para 2 para una población que se distribuye normal. 40 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C La cual se puede expresar como P[(n-1) < (n 1) 2 2 < 2,(n-1) ]= 1 - Después de manipular esta expresión, para 2 obtenemos P[ (n 1) S 2 2 2 2 .n 1 (n 1) S 2 12 2 = 1 - , n 1 Por lo que el intervalo 100 ( 1 - )% de confianza para 2 es (n 1) S 2 (n 1) S 2 2 2 .n 1 12 2 , n 1 del cual si obtenemos la raíz cuadrada, se convierte en un intervalo de 100 (1 - )% de confianza para (n 1) S 2 2 2 , .n 1 (n 1) S 2 12 2 , n 1 El lector deberá considerar al plantear intervalos de confianza que los términos exactitud y precisión que en el lenguaje cotidiano son sinónimos, en la estadística no lo son. El termino exactitud se usa en estadística solo cuando hablamos del tamaño de muestra. Mientras que precisión se considera como opuesto al término varianza, de tal forma que mientras más variabilidad exista menos precisión, entonces, 41 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C si en un problema se hace referencia a precisión, el intervalo a emplear involucrara alguna medida de variabilidad. (Guerrero, 1989) Una diferencia notable entre los intervalos de confianza para y 2 en la distribución Normal es que, en el caso de , el punto medio del intervalo coincide con X, o sea el estimador de , caso contrario del intervalo para 2, donde el punto medio del intervalo no coincide con S2, debido a la falta de simetría de la distribución. (Infante y Zarate, 1984) 2.5.1 Ejercicios 2.26. En un proceso químico se han producido, en promedio, 800 toneladas de cierto producto por día las producciones diarias para la semana pasada fueron 785, 805, 790, 793 y 802 toneladas. Determinar un intervalo de confianza de 90% para la varianza 2 de la producción diaria. Respuesta P[29.3013<<391.1668]=0.90 2.27. Se indica que las anormalidades congénitas ocurren mayormente entre niños varones engendrados por padres de mayor edad promedio. Se obtuvieron histories clínicas de este tipo de anormalidades correspondientes a 20 infantes varones cuyas madres tuvieron las edades siguientes: 31, 21, 29, 28, 34, 45, 21, 41, 27, 37, 43, 21, 39, 38, 32, 28, 37, 28, 16 y 39. Determine el intervalo de confianza de 90% para la desviación estándar de la edad en madres de hijos con anormalidades congénitas. Respuesta P[40.85<<121.70]=0.90 2.28. Si 32 mediciones del punto de ebullición del azufre tienen una desviación estándar de 0.83 grados Celsius, constrúyase un intervalo 42 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C con un nivel de confianza del 98% para la desviación estándar real de tales mediciones. P[0.38<<0.70]=0.98 2.29. Se espera tener una cierta variación aleatoria nominal en el espesor de las laminas de plástico que una máquina produce. Para determinar cuando la variación en el espesor se encuentra dentro de ciertos limites, cada día se seleccionan en forma aleatoria 12 láminas de plástico y se mide en milímetros su espesor. Los datos que se obtuvieron son los siguientes: 12.6, 11.9, 12.3, 12.8 11.8, 11.7, 12.4, 12.1, 12.3, 12.0, 12.5, 12.9. Si se supone que el espesor es una variable aleatoria distribuida normal, obtener el intervalo de confianza estimado del 99% para la varianza desconocida del espesor. Si no es aceptable una varianza mayor de 0.90 mm, ¿existe alguna razón para preocuparse con base en esta evidencia? P[0.0614<<0.6309]=0.99 No. La muestra no proporciona evidencia de que ocurra una varianza de 0.9 mm2, con una confianza del 99% 2.30. Se tiene interés en la variabilidad de los puntajes obtenidos en un examen TOEFL (de Test of english as a Foreign Languaje). Se obtiene una muestra aleatoria de puntajes correspondientes a estudiantes extranjeros con los siguientes resultados: 495, 525, 580, 605, 552, 490, 590, 505, 551, 600. Obtenga un intervalo de confianza de 95 % para la desviación estándar delas calificaciones del examen TOEFL. P[30.16<<80.04]=0.95 43 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 2.31. Mientras realizan una tarea extenuante, el ritmo cardiaco de 25 trabajadores se incrementa en un promedio de 18.4 pulsaciones por minuto, con una desviación estándar de 4.9 pulsaciones por minuto. Calcular un intervalo con un nivel de confianza del 95% para la correspondiente desviación estándar de la población. P[3.83<<6.82]=0.95 44 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C III. PRUEBAS DE HIPOTESIS El principal objetivo de la estadística es hacer inferencias con respecto a parámetros poblacionales desconocidos, basadas en la información obtenida mediante datos muestrales. Es necesario recordar que la estadística utiliza dos enfoques básicos: 1. El enfoque descriptivo, que se ocupa esencialmente de resumir y describir en forma concisa, ya sea mediante gráficas o a través de unas cuantas medidas descriptivas la información con que se cuente, y 2. El enfoque inferencial, cuyo objetivo fundamental es el de utilizar muestras representativas para realizar inferencias que sean validas para toda la población de donde se obtuvo la muestra Estas inferencias se expresan a través de la estimación estadística de parámetros tema de la unidad anterior y mediante la prueba de hipótesis de valores muestrales lo cual es el punto central de la presenta en esta unidad. Las pruebas de hipótesis se realizan en todos los Ámbitos en los cuales pueden contrastarse la teoría frente a la observación. Un profesor puede comprobar que dos métodos de enseñanza son igualmente eficientes. Un administrador puede proponer la hipótesis de que cierto insecticida reducirá la población de áfidos que atacan cierto cultivo. Estas hipótesis deberán probarse estadísticamente comparando la hipótesis con los valores muestrales observados. AI igual que en la unidad anterior se presenta diversas situaciones en las cuales se emplea la prueba de hipótesis acerca de tres parámetros básicos: la media , la desviación estándar , y la proporción p. 45 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.1 Conceptos de la teoría de hipótesis. Se presentan diversos conceptos de una hipótesis estadística con el fin de que el lector forme su propio criterio. Una hipótesis estadística es una aseveración sobre un modelo probabilístico. El procedimiento mediante el cual se juzga la factibilidad de la hipótesis es una prueba de hipótesis. (Infante y Zarate, 1990) Una hipótesis estadística es una afirmación sobre la población. Esta proposición es plausible de ser evaluada mediante una muestra de la población. Una hipótesis estadística es una aseveración o conjetura sobre la distribución de una o más variables aleatorias. Si la hipótesis estadística especificada completamente la distribución es llamada simple; de otra forma es llamada compuesta. (Mood, Graybill and Boes, 1974) Una hipótesis estadística es una afirmación con respecto a alguna característica desconocida de una población de interés (Canavos, 1987) Para los propósitos de este texto una hipótesis estadística se considera como una suposición acerca del estado de la naturaleza, generalmente expresada por el comportamiento de una variable aleatoria y su distribución de probabilidades. La lógica fundamental de una prueba de hipótesis se puede aclarar mediante un ejemplo. Suponga que se desea comprobar si la estatura promedio de los alumnos de cierta especialidad universitaria es de al menos 1.65 metros. Note entonces que la prueba de hipótesis constituirá un mecanismo que nos permita verificar la veracidad o falsedad de esta hipótesis. La naturaleza de una prueba de Hipótesis estadística es determinar si la hipótesis se encuentra fundada en la evidencia que se obtiene a través de una muestra aleatoria. Esta 46 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C determinación se tomara siempre con base en la probabilidad, y, si esta es minina, entonces será rechazada la hipótesis. Cualquier prueba estadística de hipótesis funciona exactamente de la misma manera y se compone de los mismos elementos esenciales 1 ) Hipótesis nula, Ho Hipótesis que se desea probar o contrastar. Generalmente es una aseveración en el sentido de que un parámetro poblacional tiene un valor especifico. La hipótesis nula es aquélla que el investigador esta dispuesto a sostener como plausible, a menos que la evidencia experimental en su contra sea sustancial. Adema hipótesis nula contendrá invariablemente la igualdad 2)Hipótesis alternativa, Ha Esta hipótesis sobre la cual se centra la atención, es una aseveración sobre el mismo parámetro poblacional que se utiliza en la hipótesis nula. La hipótesis nula y alternativa se proponen después de examinar el problema o aseveración, buscando que ambas sean mutuamente excluyentes. A partir de este momento en el procedimiento do prueba de hipótesis se trabajara bajo el supuesto de que la hipótesis nula es una afirmación correcta. Este caso puede ser comparado con un juicio legal estadounidense donde se supone que el acusado es inocente mientras no se le demuestre lo contrario. AI concluir este contraste do hipótesis se tomará una de dos decisiones posibles. Se estará de acuerdo con la hipótesis nula y s dirá que no existe suficiente evidencia muestral para rechazar Ho (esto corresponde en el juicio a declarar la inocencia del acusado). O bien existe evidencia muestral para rechazar Ho (es decir el acusado es culpable). 3) Estadístico de prueba 47 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Variable aleatoria cuyo valor en una muestra dada determinara nuestra decisión de "no rechazar Ho" o bien "rechazar Ho" 4) Región de rechazo Especifica los valores estadísticos de la prueba para los cuales se rechaza la hipótesis nula. Si era una muestra particular el valor calculado del estadístico de la prueba se localiza en la región de rechazo, se rechaza la Hipótesis nula Ho en favor de la hipótesis alternativa Ha. Si el valor del estadístico de la prueba no cae en la región de rechazo, no rechazamos Ho. 3.2 Errores tipo I y tipo II Una hipótesis estadística es esencialmente diferente de una proposición matemática debido a que la decisión sobre la veracidad de la Hipótesis estadística se funda en el comportamiento de una variable aleatoria y, en consecuencia pueden tomarse decisiones equivocadas. Recuerde el ejemplo "el acusado es inocente hasta que no se le demuestre lo contrario " donde la hipótesis nula es "Inocente " y la alternativa "culpable". El rechazo de la hipótesis nula implicarla que la parte acusadora a proporcionado la suficiente evidencia para condenar al acusado. En contraparte, ante la falta de evidencia el acusado será declarado inocente. El lector deberá notar que en el ejemplo anterior es posible cometer dos errores; declarar al acusado inocente por falta de pruebas cuando en realidad es culpable y decidir que el acusado culpable por mala interpretación de las pruebas, cuando realmente es inocente. En general, para cualquier prueba de hipótesis se tienen las posibilidades que se presentan en la siguiente tabla. 48 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Situación real (desconocida) Decisión Ho cierta tomada Ha falsa Rechazar Error tipo I Ho La probabilidad debe ser baja. Símbolo a No rechazar Decisión correcta La probabilidad debe ser alta. Símbolo 1 – a= coeficiente de confianza Ho falsa Ha cierta Decisión correcta La probabilidad debe ser alta. Símbolo 1 – = poder de prueba Error tipo II La probabilidad debe ser baja. Símbolo: En el caso judicial el Error Tipo I consiste en concluir que el acusado es culpable cuando es inocente, y el Error Tipo II en concluir que es inocente cuando en realidad es culpable. Dado que la decisión que tomamos en una prueba de hipótesis se basa en la evidencia muestral, siempre estaremos expuestos a ambos tipos de error. La notación que se emplea casi universalmente para denotar esto errores es: para la probabilidad de Error Tipo I y para la probabilidad de Error Tipo II. = P[ Error Tipo I ] = P[ Rechazar cuando Ho es cierta] = P[ Error Tipo II ] = P[no rechazar Ho cuando Ho es falsa] Es necesario considerar que generalmente se asume la actitud de tomar el error tipo I corno mas grave. Si considera el caso de un acusado que es condenado a la pena capital. Una vez ejecutado no es posible remediar el error si es inocente, dado que no es posible volverlo a la vida. Por el contrario una persona que es declarada inocente por falta de pruebas es posible llevarla a juicio nuevamente. Dado lo anterior es común seleccionar de antemano el tamaño del error tipo I que se esta dispuesto a soportar, sin embargo es necesario considerar que a medida que el error tipo I disminuye, el error tipo II aumenta. La única forma reducir ambos errores simultáneamente es aumentado el tamaño de muestra. En secciones posteriores se presenta el manejo numérico y grafico del tema. 49 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.2.1 Ejercicios 3.1) Supóngase que una empresa de ingeniería se le pide verificar la seguridad de una presa. ¿Qué tipo de error cometería si se equivocase al rechazar la hipótesis nula de que la presa es segura? ¿Qué tipo de error cometería si se equivoca al aceptar la hipótesis nula de que la presa es segura? 3.2) Supóngase que deseamos probar la hipótesis nula de que un dispositivo anticontaminante para automóviles es eficaz. Explíquese en que condiciones cometeríamos un error tipo I y en que condiciones cometeríamos un error tipo II. 3.3) Una socióloga esta interesada en la eficiencia de un curso de capacitación para conseguir que más conductores utilicen los cinturones de seguridad de los automóviles. ¿Qué hipótesis esta probando la socióloga si comete un error tipo I al concluir erróneamente que el curso de capacitación no es efectivo? 3.4) Una gran firma maquiladora es acusada de discriminación en su política de contratación. a) Qué hipótesis esta siendo probada si un jurado comete un error tipo I al encontrar que la firma es inocente? b) Qué hipótesis esta siendo probada si un jurado comete un error tipo II al encontrar que la firma es culpable? 3.3 Pruebas de hipótesis para una media Se presentan en esta sección pruebas de hipótesis sobre el parámetro al igual que en el caso de la estimación se presentan dos alternativas de acuerdo al conocimiento o desconocimiento de la varianza poblacional. También se calcula la probabilidad de cometer error tipo I y error tipo II cuando efectuamos pruebas de hipótesis 50 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C acerca la media poblacional () y conocemos la varianza poblacional (2). 3.3.1 Prueba de hipótesis para una media con varianza conocida(2) Sea una muestra aleatoria X1, X2, ...,,Xn, de una distribución que se supone Normal con media y varianza 2. Es decir que cada una de las variables aleatorias es N(, ), y además esas variables son independientes. Si queremos inferir sobre el parámetro de la distribución empleando para ello la muestra que se tiene. Los juegos de hipótesis de interés práctico son de tres tipos: a) Ho: = . En oposición a Ha: . b) Ho: . En oposición a Ha: > . c) Ho: . En oposición a Ha: < . donde . es una constante elegida por el investigador. La estadística de prueba en cualquiera de los tres casos es: Zc X o n Con un nivel de significancía , las reglas correspondientes a (a), (b) y (c) son respectivamente: a) "Rechazar Ho si | Zc| |Z/2| “ b) "Rechazar Ho si Zc Z1-” 51 de decisión FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C c) "Rechazar Ho si Zc Z” Se presentan a continuación en la figura 3.3.1. la representación grafica de las regiones de rechazo, correspondientes a los juegos de hipótesis, presentados anteriormente. Figura 3.3.1.1.a. Región de rechazo para una prueba de hipótesis de cola derecha 0 Figura 3.3.1.2.b. Región de rechazo para una prueba de hipótesis de cola derecha Figura 3.3.1.3.c. Región de rechazo para una prueba de hipótesis de cola izquierda 52 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.3.2. Prueba desconocida de hipótesis para la media con varianza En el inciso anterior desarrollamos una prueba de hipótesis para la media suponiendo que conocemos el valor de la varianza poblacional (2), lo cual es una situación poco frecuente, aun es posible plantear una prueba de hipótesis satisfactoria para la media. Sea una muestra aleatoria X1, X2... Xn de una distribución que se distribuye normal con media desconocida y varianza desconocida 2. Entonces mediante los conceptos estudiados la mejor estadística de prueba se distribuye t de Student. Los juegos de hipótesis de interés práctico son de tres tipos: Juego de hipótesis a) Ho: = . En oposición a Ha: . b) Ho: . En oposición a Ha: > . c) Ho: . En oposición a Ha: < . donde es una constante elegida por el investigador. La estadística de prueba en cualquiera de los tres casos es: Con un nivel de significancía , las reglas correspondientes a (a), (b) y (c) son, respectivamente: a) "Rechazar Ho si | Tc| t/2,n-1 “ b) "Rechazar Ho si Tc tn-1” c) "Rechazar Ho si Tc -tn-” 53 de decisión FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C El lector deberá notar que el juego de hipótesis empleados son similares a los presentados en la sección 3.3.l., así mismo las regiones críticas (rechazo) son similares aunque mas reducidas por el uso de la distribución t de Student. 3.3.2.1 Ejercicios 3.5. Los salarios diarios en cierta, rama de la industria en particular presentan una distribución normal con media de $13.20 y una desviación estándar de 2.50. Una compañía X que emplea a 40 trabajadores paga en promedio $12.20, ¿puede acusarse a esta compañía de pagar sueldos bajos?. Emplear = 0.01. Respuestas Juego de hipótesis: Ho: . En oposición a Ha: < Estadístico de Prueba Zc X =-2.5298 n Regla de desición Rechazar Ho si Zc< Z0.01=2.325 Conclusión: Rechazar Ho en favor de Ha. Es decir con un nivel de significancía = 0.01, existe suficiente evidencia muestral para decir que la compañía X paga salarios inferiores a los de la rama de la industrias a la que pertenece. 54 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.6. Las casas cercanas a una universidad tienen un valor medio igual a $58,000. Se supone que aquellas que están situadas en la vecindad de la universidad tienen un valor superior. Se tomo una muestra aleatoria de 12 casas en el área universitaria para contrastar esta teoría. Su avaluó promedio es de $62,460, siendo su desviación estándar de $5,200. Realice un contraste de hipótesis utilizando =0.01 Respuestas Juego de hipótesis: Ho: 58000. En oposición a Ha: > 58000 Estadístico de Prueba tc X =2.9711 Sx n Regla de decisión: Rechazar Ho si Tc> t0.01,11=2.7181 Conclusión: Rechazar Ho en favor de Ha con un nivel significancía de 0.01. Es decir la muestra aporta suficiente evidencia para manifestar que las casas cercanas a una universidad tienen un valor medio mayor a $58,000. 3.7. Un grupo de estudiantes sostiene que el alumno promedio invierte al menos 25 minutos diarios para llegar a la universidad. El departamento de servicios escolares obtuvo una muestra del tiempo empleado (un solo sentido) por 36 estudiantes cuya media y desviación estándar fue 22 y 7.3 minutos, respectivamente. ¿ Tiene el 55 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C departamento evidencia para estudiantes? Utilice = 0.01 rechazar la afirmación de los Respuestas Juego de hipótesis: Ho: 25. En oposición a Ha: <25 Estadístico de Prueba tc X =-2.4657 Sx n Regla de decisión: Rechazar Ho si tc - t0.01,35=-2.4377 Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía de 0.01. Es decir existe suficiente evidencia muestral para rechazar la afirmación de los estudiantes. 3.8. En las etiquetas de una marca de leche evaporada se afirma que esta contiene "no menos de 850 U.I. (Unidades internacionales) de vitamina D por litro". Se realizan 15 determinaciones del contenido (por litro) de vitamina D y se obtienen los siguientes resultados: 836, 849, 872, 861, 839, 826, 856, 8.62, 859, 852, 8480' 839, 846, 870, 861 Pruebe la hipótesis del fabricante con = 0.025. 56 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Respuestas Juego de hipótesis: Ho: 850. En oposición a Ha: 0 Estadístico de Prueba Tc X =0.5147 Sx n Regla de decisión: Rechazar Ho si Tc<- t0.025,n-1=-2.1448 Conclusión: Con un nivel de significancía = 0.025 no existe suficiente evidencia muestral para rechazar Ho, por lo que se concluye que la leche evaporada contiene al no menos de 850 U.I. de vitamina D por litro. 3.9. En una muestra aleatoria de seis varillas de acero se obtuvo una resistencia media a la comprensión de 58,392 psi (libras por pulgada cuadrada) con una desviación estándar de 648 psi. Emplear esta información y un nivel de significancía de = 0.05 para probar si la media de la resistencia real a la comprensión del acero del cual proviene esta muestra es de 58,000 psi. Respuestas Juego de hipótesis: Ho: = 58000. En oposición a Ha: 58000 57 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Estadístico de Prueba tc X =1.4818 Sx n Regla de decisión: Rechazar Ho si tc< t0.025,5=2.5706 Conclusión: No existe suficiente evidencia muestral para rechazar Ho con un nivel de significancía de 0.05. Es decir la media, de la resistencia a la compresión del acero del cual proviene esta muestra es de 58,000 psi. 3.10. Una muestra aleatoria de los archivos de una compañía que contiene información detallada indica que las ordenes para cierta pieza de máquina fueron entregados en 10, 12, 19, 14, 15, 18, 11 y 13 días. Usar un nivel de significancía = 0.01 para probar La afirmación que el tiempo medio de entrega es de 10.5 días. Elegir la Hipótesis alterna de manera que el rechazo de la hipótesis nula = 10.5 implique que la entrega de las órdenes toma mas tiempo del indicado. Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía de 0.01. Es decir existe evidencia muestral que indica un tiempo de entrega mayor de 10.5 días 3.11. Cinco mediciones del contenido de alquitrán de cierta marca de cigarros producen los siguientes resultados: 14.5, 14.2, 14.4, 14.3 y 14.5 mg por cigarro. Probar que la diferencia entre el promedio muestral y la media del contenido de alquitrán que indica el fabricante = 14.0 es significativa, con = 0.05. 58 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía de 0.05. Es decir existe suficiente evidencia muestral para rechazar la afirmación del fabricante 3.12. Supóngase que en el ejercicio anterior la primera medición es anotada incorrectamente como 16.0 en lugar de 14.5. Verificar si ahora la diferencia entre la media muestral y el contenido de alquitrán que indica el fabricante = 14.0 no es significativa con = 0.05. Explicar la aparente paradoja de que, a pesar de que la diferencia entre X y ha aumentado, no hay significancía estadística. Conclusión: No rechazar Ho con un nivel de significancía de 0.05. Es decir no existe suficiente evidencia muestral para rechazar la afirmación del fabricante. Note el incremento desproporcionado de la varianza con respecto al de la media lo que causa la aparente paradoja. 59 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.4 Pruebas de hipótesis de proporciones Ya presentamos el teorema del límite central y se mencionó que este teorema es fundamental para la teoría de probabilidades. Una de las aplicaciones mas importante de dicho teorema es la aproximación de variables aleatorias discretas cuando n a la distribución normal. Por otro lado, las pruebas de hipótesis relacionadas con proporciones (porcentajes o probabilidades) se emplean en diversas áreas del conocimiento humano. 3.4.1 Una proporción Es cierto que existen pruebas apropiadas con base en la distribución binomial, solo consideramos aquí las pruebas de hipótesis para la proporción de éxitos en un experimento binomial para muestras grandes que se basan en la aproximación a la distribución normal. La proporción o porcentaje juega un papel destacado en el control de calidad y en las encuestas de opinión, entre otras aplicaciones del tema. Estaremos interesados en probar Ho: p = po, donde p es parámetro de la distribución binomial, entonces los juegos de hipótesis de interés practico serán: a) Ho: p = po vs Ha p p o b) Ho: p = po vs Ha p > p o c) Ho: p = po vs Ha p < p o donde po es una constante elegida por el investigador La estadística de prueba en cualquiera de los tres casos es 60 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Zc x npo npo (1 po ) x p o n po (1 po ) n Con un nivel de significancía a, las reglas de decisión correspondientes a (a), (b) y (c) son, respectivamente: a) Rechazar Ho si |Zc| |Z b) Rechazar Ho si Zc Z c) Rechazar Ho si Zc Z 3.4.2. Diferencia de proporciones. Las pruebas de diferencia de proporciones se realizan en general cuando queremos comparar dos muestras cuyo parámetro de interés es la proporción. Deseamos entonces conocer si pertenecen a la misma población o corroborar si la diferencia entre estas excede cierto porcentaje. Por ejemplo, podríamos verificar que la proporción de alumnos que aprueban cierta materia con el profesor A es igual a la proporción de alumnos aprobados en esa misma materia por el profesor B. Es posible que un alumno determine emplear cierto habito de estudio solo si comprueba que la proporción de alumnos aprobados es mayor que aquellos que no la usan. El procedimiento de pruebas de hipótesis se puede extender para varias proporciones. No obstante solamente se incluirá el material referente a dos poblaciones, los lectores interesados en ampliar sus conocimientos pueden consultar (Joliiisovi, 1 989). En el caso de la prueba para dos proporciones es posible probar diversos juegos de hipótesis de interés práctico, los cuales son de tres tipos: 61 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C a) Ho: p1 - p2 = pc vs Ha p 1 - p 2 p c b) Ho: p1 - p2 = pc vs Ha p1 - p2 > pc c) Ho: p1 - p2 = pc vs Ha p1 - p2 < pc donde p1 y p2 son las proporciones poblacionales para la muestra 1 y 2 respectivamente y la pc es la diferencia que probamos entre ambas proporciones. Es necesario destaca que pc = 0 si esperamos detectar cualquier diferencia y p2 0 cuando es necesario encontrar una diferencia de proporciones en especial. La estadística de prueba en cualquiera de los tres casos es: Zc P1 P2 p1 p2 p1 q1 p 2 q 2 n1 n2 Con un nivel de significancía las reglas de decisión correspondientes a (a), (b) y (c) son respectivamente: a) Rechazar Ho si |Zc| Z1- b) Rechazar Ho si Zc Z c) Rechazar Ho si Zc Z 62 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.4.2.1 Ejercicios 3.13. Un fabricante de bombas de pozo profundo asegura que a lo sumo el 30 % de sus bombas requieren reparación en los primeros 5 años de operación. Si una muestra aleatoria de 120 bombas incluye 47 que requieren reparación en los primeros 5 años se puede afirmar que esto contradice la afirmación del fabricante. Use = 0.05. Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía de 0.05. Es decir existe evidencia muestral para contradecir la proporción (30%) de las bombas que requieren reparación los primeros 5 años de operación. 3.14. La experiencia de un comerciante en aparatos y accesorios mostró que 10% de sus clientes que compran a plazos liquidan sus cuentas antes del vencimiento de la última mensualidad (la vigésimo cuarta). Al sospechar un incremento en este porcentaje el comerciante selecciona al azar 200 compradores a crédito para saber sus intenciones, treinta y tres ellos afirmaron tener planeado pagar adeudos antes de la última mensualidad. ¿Son los datos suficientes para indicar que el porcentaje de compradores a plazos que pagarán sus deudas antes de la última mensualidad, excede de 10%? . Usar un nivel de significancía = 0.05. Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía de 0.05. Es decir la muestra aporta evidencia suficiente para indicar que el porcentaje de compradores a plazos que pagaran sus deudas antes de la última mensualidad, excede el 10%. 3.15. El rendimiento de una computadora se observa en un periodo de dos años para verificar la afirmación de que la probabilidad del tiempo perdido por fallas exceda a 5 horas en una semana cualquiera es de 0.2. ¿ Qué se puede concluir con un nivel de significancía =0.05, si 63 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C hubo solo 11 semanas en las cuales el tiempo perdido de la computadora excedió las 5 horas?. (Recuerde que un año tiene 52 semanas). Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía de 0.05. Es decir existe suficiente evidencia muestral para refutar la afirmación del productor acerca del tiempo perdido por fallas en una semana. 3.16. Un fabricante modificó una línea de producción para reducir el promedio de la fracción de defectuosos. Para determinar si la modificación fue efectiva, el fabricante sacó una muestra aleatoria de 400 artículos antes de la modificación de la línea de producción y otra muestra aleatoria de 400 artículos después de tal cambio. Los porcentajes de defectuosas en las muestras eran Antes Después 5.25 % 3.5% Pruebe la Hipótesis de que la modificación disminuye la proporción de artículos defectuosos con un nivel de significancía = 0.05. Conclusión: No rechazar Ho con un nivel de significancía = 0.01. Es decir no existe evidencia muestral para afirmar que la modificación reduce significativamente el número de artículos defectuosos. 3.17. Un genetista esta interesado en la proporción de machos y hembras de una población que tiene cierta enfermedad menor en la sangre. En una muestra aleatoria de 100 machos se encuentran 31 afectados mientras que solamente 24 de 100 hembras presentan la 64 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C enfermedad. Se puede concluir, con un nivel de significancía de = 0.01, que la proporción de machos afectados por esta enfermedad de la sangre es mayor que la proporción de hembras también afectadas? (Walpole V Myers, 1989) Conclusión: No rechazar Ho con un nivel de significancía = 0.01. Es decir existe evidencia muestral para afirmar que la enfermedad afecta por igual a ambos sexos. 3.18. Dos empresas que fabrican artículos equivalentes afirman tener la misma proporción de preferencia hacia sus productos entre los consumidores. Una muestra aleatoria indica que 102 de 300 y 152 do 400 consumidores prefrieren los productos A V B respectivamente. ¿Indica esta evidencia una diferencia significativa entre las proporciones?. Utilizar = 0.02. Conclusión: No rechazar Ho con un nivel de significancía =0.02. Es decir no existe evidencia muestral que sugiera que el consumidor prefiere un producto en especial. 3.5 Pruebas de hipótesis para diferencia de dos medias La prueba de hipótesis para la diferencia de dos medias es quizás una de las pruebas más empleadas. Con frecuencia estamos interesados era probar si dos muestras tienen igual promedio o si alguna de ellas es mayor que otra. Se han proporcionado ya las distribuciones muestrales para la diferencia de medias cuando se conoce o se desconoce la varianza poblacional (2). Las pruebas que se presentan en este apartado suponen que ambas muestras son aleatorias e independientes y las poblaciones de las cuales provienen se distribuyen normales. Los pruebas de dos medias para muestras apareadas o dependientes van mas haya del objetivo de este curso. 65 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.5.1. Prueba de hipótesis para la diferencia de medias con varianzas conocidas Sean X1, X1 .. .... Xn, y Y1, Y2, ..., Yn, muestras aleatorias que se obtienen de dos distribuciones normales independientes con media x y y y varianzas x y 2y respectivamente. Entonces por los conceptos aprendidos sabemos que es factible establecer una estadística mediante la cual se pueden probar las Hipótesis que a continuación se presentan. a) Ho: x - y = d vs Ha x - y d b) Ho: x - y = d vs Ha x - y >d c) Ho: x - y = d vs Ha x - y <d donde d es una constante positiva mayor o igual que cero y que representa la diferencia que se desea probar entre los valores desconocidos de las medias poblacionales. El estadístico de prueba correspondiente a estas Hipótesis será dado por Zc X Y d x2 n y2 m Con un nivel de significancía , las reglas de decisión correspondientes a (a), (b) y (c) son, respectivamente: a) Rechazar Ho si |Zc| Z 66 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C b) Rechazar Ho si Zc Z c) Rechazar Ho si Zc Z 3.5.2. Prueba de hipótesis para la diferencia de medias con varianzas desconocidas Se ha mencionado anteriormente que en situaciones reales es poco común tener conocimiento del valor de la varianza poblacional. Ya encontramos un estadístico para la diferencia de medias con varianzas iguales pero desconocidas. Es necesario decir que la prueba es sensible a situaciones en las cuales no se cumplen los supuestos principalmente al de varianza iguales lo cual nos lleva a inferencias equivocadas, por otra parte el supuesto de normalidad no afecta esta prueba cuando el tamaño de la muestra es mayor de 15. Las hipótesis de interés se presentan a continuación en el formato acostumbrado: a) Ho: x - y = d vs Ha x - y d b) Ho: x - y = d vs Ha x - y >d c) Ho: x - y = d vs Ha x - y <d donde d es una constante positiva mayor o igual que cero y que representa la diferencia que se desea probar entre los valores desconocidos de las medias poblacionales. El estadístico de prueba correspondiente a estas hipótesis será dado por 67 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C T X Y d Sp 2 donde Sp = 1 1 n m nn 1S x2 n y 1S y2 nx n y 2 Con un nivel de significancía a las reglas de decisión correspondientes a (a), (b) y (c) son, respectivamente. a) Rechazar Ho si |Tc| tn+m-2 b) Rechazar Ho si Tc t,n+m-2 c) Rechazar Ho si Tc -tn+m-2 3.5.2.1 Ejercicios 3.19. Supóngase que deseamos investigar si en promedio el sueldo del hombre excede en más de $ 20 por semana al de la mujer en cierta industria. Si los datos revelan que 60 hombres ganan en promedio $292.50 a la semana con una desviación estándar de $ 1 5.60, mientras que 60 mujeres perciben en promedio $ 266.10 por semana con una desviación estándar de $18.20. ¿Qué puede concluirse con un nivel de significancía de 0.017 Conclusión: No rechazar Ho con un nivel de significancía = 0.01. Es decir no existe suficiente evidencia muestral para decir que el promedio del sueldo para hombres excede en mas de $ 20 por semana al de la mujer en cierta industria. 68 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.20. Un fabricante de motores eléctricos comparó la productividad de trabajadores de ensamblaje para dos tipos de horarios semanales de trabajo de 40 horas. Uno cuatro días de 10 horas (horaria 1) y cl horario estándar de 5 días de 8 horas (horario 2). Se asignaron 20 trabajadores a cada horario de trabajo y se registro el número de unidades armadas durante una semana las medias (en cientos de unidades) y las varianzas muestrales se indican a continuación Estadística Media Muestral Varianza muestral Horario 1 2 43.10 44.60 4.28 3.89 ¿Proporcionan los datos evidencia suficiente para indicar una diferencia en la productividad media para los dos horarios de trabajo?. Haga la prueba con un nivel de significancía = 0.05. Conclusión: Rechazar Ho en favor Ha con un nivel de significancía = 0.05. Es decir la evidencia muestral indica una diferencia de productividad entre horarios. 3.21 Se aplicó un examen relacionado con los aspectos fundamentales del sida a dos grupos uno de estudiantes universitarios de licenciatura y el otro de egresados del bachillerato. A continuación se presenta un resumen de los resultados de el examen. Graduados n media Universitarios 75 Bachilleres 75 77.5 60.4 69 Desviación estándar 6.2 7.4 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C ¿Indican estos datos que los graduados de universidad tuvieron en promedio un resultado significativamente mayor de 13 puntos en el examen?. Utilizar = 0.001. Conclusión: Rechazar Ho en favor Ha con un nivel de significancía = 0.001. Es decir existe suficiente evidencia muestral para decir que los estudiantes universitarios tienen un puntaje, trece puntos significativamente superior que los estudiantes de bachillerato en aspectos relacionados con el sida. 3.22. Con el fin de reducir los costos en la alimentación de cerdos, se genero una dieta con ingredientes no convencionales y de bajo costo. Para el experimento se contó con 24 cerdos de la misma raza, edad y peso inicial similar. Doce cerdos fueron alimentados con la dieta no convencional y otros doce con un alimento comercial. Se midió la ganancia de peso al final del experimento, los resultados obtenidos se presentan a continuación. Dieta Media Desviación Estándar Comercial 49.2 3.9 No convencional 40.0 2.5 Probar la hipótesis de que ambas dietas producen igual ganancia de peso. Utilizar un nivel de significancía de = 0.001. 70 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Conclusión: No rechazar Ho con un nivel de significancía = 0.001. Es decir existe suficiente evidencia muestral para decir que ambas dietas producen la misma ganancia de peso. 3.23. Dos grupos de 10 ratones de laboratorio fueron alimentados con una dieta preestablecida. AI finalizar tres semanas se registró el peso ganado por cada animal. ¿Justifican los datos de la tabla siguiente la conclusión de que el peso medio ganado con la dieta B fue mayor que con la dieta A, al nivel de significación = 0.05? Dieta A Dieta B 5 14 7 9 11 13 14 12 8 7 5 21 4 9 16 23 16 13 19 21 Conclusión: Rechazar Ho en favor Ha con un nivel de significancía = 0.05. ES decir existe suficiente evidencia muestral para decir que el peso medio ganado con la dieta B fue mayor que el de la dieta A. 3.24. Se ha desarrollado una nueva cura para cemento Pórtland. Se efectúan ensayos para determinar si la nueva cura tiene un efecto (positivo o negativo) en la resistencia. Se ha producido un lote sometido a ambas curas, la estándar y la experimental. Las resistencias a la compresión (psi) son las siguientes Cura 4.125 4.225 4.35 3.575 3.875 3.825 3.975 3.80 3.775 3.850 estándar X Cura 4.25 3.95 3.9 4.075 4.55 4.45 4.15 4.55 3.70 4.25 experimental Y 71 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Pruebe el efecto en la resistencia del cambio de cura a un nivel de significancía de = 0.05. Conclusión: Rechazar Ho en favor Ha con un nivel de significancía = 0.05. Es decir existe suficiente evidencia muestral para decir que la nueva cura tiene efecto (positivo o negativo) en la resistencia del cemento. 3.6 Pruebas de hipótesis sobre la varianza de una distribución normal Las secciones anteriores de este capitulo trataron con el problema de pruebas de media de una distribución normal o con la aproximación de una distribución discreta a una distribución normal. Sin embargo con frecuencia surgen problemas que requieren) inferencias acerca de la variabilidad. Por ejemplo considere la variabilidad de las calificaciones otorgadas por cierto profesor en determinado examen. Se esperaría que las puntuaciones tuvieran una varianza pequeña y que además su media fuera mayor o igual al promedio mínimo aprobatorio. Esta sección se refiere a la prueba de hipótesis relacionadas con las varianza o desviación estándar poblacional. En otras palabras, interesa la prueba de hipótesis relacionada con la uniformidad de una población. Se parte bajo el supuesto de la muestra proviene de una población que se distribuye normal. Sea X1, X2, ..., Xn, una muestra aleatoria de una población que se distribuye normal con media y varianza 2 desconocida. Las Hipótesis de interés son: a) Ho: = . En oposición a Ha: . b) Ho: < . En oposición a Ha: > . 72 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C c) Ho: > . En oposición a Ha: < . donde 2o, es el valor propuesto de 2 . La estadística para probar estas hipótesis se basan en la varianza muestral S 2. Entonces la estadística de prueba que permite fijar el nivel de significancía deseado es n 1S 2 2 n21 Entonces bajo la hipótesis nula. Las reglas de decisión son: c2 n 1S 2 2o En la figura 3.6.1. se ilustra gráficamente las regiones de rechazo para cada tipo de hipótesis. . .. 12 2 2 2 Figura 3.6.1 a. Región de rechazo para una prueba de hipótesis bilateral para 73 2 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C REGION DE RECHAZO Figura 3.6.1.b. Región de rechazo de cola derecha para una prueba de hipótesis para 2 Región de rechazo 0 2 1 Figura 3.6.1.c. Región de rechazo de cola izquierda para una prueba de Hipótesis para 2 74 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.6.1 Ejercicios 3.25. Datos de archivo indican que la varianza de las mediciones efectuadas sobre lámina metálica grabada, las cuales fueron obtenidas por inspectores expertos en control de calidad es de 0.18 pulgadas cuadradas. Las mediciones realizadas por un inspector sin experiencia podrían tener una varianza mayor (debido quizás a su poca destreza para leer los instrumentos) o también una varianza rnuy pequeña (quizás porque las mediciones excesivamente altas o bajas se han descartado). Si un nuevo inspector mide 101 laminas grabadas con una varianza de 0.13 pulgadas cuadradas, pruébese con un nivel de significancía de 0.05 si el inspector realiza mediciones satisfactorias. Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía = 0.05. Es decir existe evidencia muestral suficiente para indicar que el nuevo inspector no toma satisfactoriamente sus mediciones. 3.26. El gerente de una planta sospecha que el número de piezas que produce un trabajador en particular por día, fluctúa más allá del valor normal esperado. El gerente decide observar el número de piezas que produce este trabajador durante 10 días, seleccionados estos al azar. Los resultados son 15, 12, 8, 13, 12, 15, 16, 9, 8 y 14. Si se sabe que la desviación estándar para todos los trabajadores es de 2 unidades y si el numero de estas que se produce diariamente se encuentra modelada en forma adecuada por una distribución normal, aun nivel de = 0.05, ¿ Tiene apoyo la sospecha del gerente? Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía = 0.05. Es decir existe evidencia muestral para avalar la sospecha del gerente. 75 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.27. En un proceso de llenado, la tolerancia para el peso de los recipientes es 8 gramos para reunir este requisito la desviación estándar en el peso puede ser de 2 gramos. Los pesos de 25 recipientes seleccionados al azar dieron como resultado una desviación estándar de 2.8 gramos. Si los pesos se distribuyen normales, determinar si la varianza de estos es diferente del valor necesario. Emplear = 0.01 Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía = 0.01. Es decir la evidencia muestral indica que el proceso no tiene la tolerancia requerida. 3.28. Un fabricante de maquinas empacadoras de jabón en polvo afirma, que su producto podría llenar las cajas con un peso dado con una amplitud de no mas 2/5 de onza. La media y la varianza da una muestra de 8 cajas de 3 onzas resultaron ser iguales a 3.1 y 0.01 8 onzas, respectivamente. Pruebe la hipótesis de que la varianza de la población de mediciones del peso es 2 = 0.01 contra la alternativa de 2> 0.01. Emplear un nivel de significancía = 0.05. Conclusión: No rechazar Ho con un nivel de significancía = 0.05. Es decir la muestra no proporciona evidencia suficiente para decir que 2 > 0.01. 3.29. Un agricultor labra todo su terreno en la misma época con un solo cultivo. En consecuencia, desea sembrar una variedad de fríjol cuya maduración sea uniforme (que sea pequeña la desviación estándar entre los momeritos de madurez de las plantas). Una productora de semillas ha desarrollado un nuevo híbrido que considera idóneo para el agricultor. El tiempo de maduración de la variedad estándar tiene una media igual a 50 días con una desviación estándar de 2.1 días. Una muestra aleatoria de 30 plantas del nuevo híbrido señala una desviación estándar de 1.65 días. ¿Indica esta muestra una 76 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C disminución significativa de la desviación estándar al nivel de significancía = 0.05?. Conclusión: No rechazar Ho con un nivel significancía de = 0.05. Es decir la muestra de la nueva variedad no proporciona evidencia significativa de tener una desviación estándar menor de 2.1. 3.30. Un grupo de ecologistas manifiesta que la temperatura durante el verano en cierta región es más variable actualmente como consecuencia de la contaminación. Si la temperatura máxima histórica (20 años) es de 34° con una desviación estándar de 4°. Se tomó una muestra de tamaño 21 de las temperaturas máximas obtenidas durante los últimos 3 años en dicha región y se obtuvo una desviación estándar de 7.5°. Probar la hipótesis de los ecologistas con un nivel de significancía de 0.05 Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía de = 0.001. Es decir existe evidencia muestral para validar un incremento en la variabilidad de la temperatura. 3.7 Pruebas de hipótesis para una razón de varianzas Se discute el procedimiento para comparar las varianzas de dos poblaciones normales. Note que la prueba de hipótesis para la razón de dos varianzas depende fuertemente del supuesto de que las poblaciones muestreadas son normales es decir que las inferencias no son robustas con respecto a los supuestos distribucionales. La estructura de los datos necesarios para la comparación se presenta enseguida: a) X1..., Xn es una muestra aleatoria de N(x,2x) 77 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C b) Y1,...,Yn es una muestra aleatoria de N(y,2y) c) Las dos muestras son independientes La distribución F permite probar la hipótesis sobre la razón de dos varianzas, cuyas hipótesis de interés son a) Ho: x = y. En oposición a Ha: x y. b) Ho: x = y. En oposición a Ha: x > y. c) Ho: x = y. En oposición a Ha: x < y. El lector debe notar que la hipótesis alternativa en a) equivale a decir que las dos varianzas son diferentes, mientras que en b) y en c) se expresa que una variable es mayor que otra. La estadística de prueba F será Fc y se considera que bajo la hipótesis nula 2x = 2y, entonces Fc S x2 S y2 Por lo cual una prueba de tamaño a para los juegos de hipótesis propuestos anteriormente pueden efectuarse mediante la estadística Fc, con las siguientes reglas de decisión a) Rechazar Ho si Fc Fn-1,m-1,/2 o b) Rechazar Ho si Fc Fn-1,m-1, 78 si Fc 1/ Fm-1,n-1,/2 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C c) Rechazar Ho si Fc 1/ Fm-1,n-1, La elección de que la población es X y cual es Y, se determina por el tamaño de las varianzas muestrales. El denominador o población Y deberá ser aquella población con varianza mayor o igual que la del numerador, con lo cual conseguimos que Fc sea mayor o igual que uno. Esto nos lleva a que el juego de hipótesis se reduce a las hipótesis. a) Ho: x = y. En oposición a Ha: x y. b) Ho: x = y. En oposición a Ha: x > y. Con estadístico de prueba dado por Fc Varianzamu estralmayo r Varianzamu estralmeno r Por lo cual una prueba de tamaño a para los juegos de hipótesis anteriores puede efectuarse mediante la estadística Fc, con las siguientes reglas de decisión a) Rechazar Ho si Fc Fn-1,m-1,/2 b) Rechazar Ho si Fc Fn-1,m-1, 3.7.1 Ejercicios 3.31. Un director de personal que proyectaba utilizar una prueba t de student para comparar el promedio del número de inasistencias 79 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C mensuales para dos categorías de empleados se encontró con una posible dificultad. La variación en el número de tales inasistencias parecía ser diferente para los dos grupos. Para verificar esto, seleccionó aleatoriamente 5 meses y contó el número de faltas de asistencia para cada grupo. Los datos se muestran en la siguiente tabla. Categoría A Categoría B 20 14 19 22 25 37 29 51 40 26 a) ¿Cuál fue la suposición necesaria para poder usar la prueba t que preocupa al director de personal? Los datos provienen de poblaciones que se distribuyen normales con varianzas poblacionales desconocidas pero iguales. En este problema aparentemente las varianzas no son iguales. b) Proporcionan los datos evidencia suficiente para indicar que las varianzas difieren para las poblaciones de las inasistencias para las dos categorías de empleados?. Emplear = 0.10 e interpretar los resultados. Conclusión: No rechazar Ho con un nivel de significancía = 0.10. Es decir no existe evidencia muestral, para decir que las varianzas poblacionales de las dos muestras son diferentes, por lo tanto es posible que efectuar la prueba t proyectada por el director de personal. 3.32. La cantidad de cera superficial en cada lado de bolsas de papel encerado es una variable aleatoria. Hay razones para sospechar que hay una mayor variación en la cantidad de cera en el interior de la bolsa que era el exterior. Se ha obtenido una muestra de 61 observaciones de la cantidad de cera de cada lado de estas bolsas con los siguientes resultados. 80 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C Cera en libras por unidad de área Estadísticas Superficie exterior Media 0.9480 Varianza 0.3189 muestreada Superficie interior 0.6520 0.7043 Conduzca una prueba para determinar si la variabilidad de la cantidad de cera de la superficie interior es mayor que la contenida en la superficie exterior, Usar un nivel de significancía = 0.01. .. Conclusión: Rechazar Ho en favor de Ha con un nivel de significancía = 0.01. ES decir existe suficiente evidencia muestral, para indicar que la superficie interior de las bolsas contiene más cera que la exterior. 3.33. Una panadería está considerando la compra de uno de dos hornos. Se requiere que la temperatura permanezca constante durante la operación de horneado. Se hizo un estudio para medir la varianza en temperatura de los dos hornos en funcionamiento. Antes de que el termostato restableciera la flama, la varianza en la temperatura del horno A fue igual a 2.4, resultante de 16 mediciones. La varianza del horno B fue de 3.2 resultante de 12 mediciones. ¿ Proporciona esta información suficiente evidencia para concluir que existe una diferencia entre las varianzas para los dos hornos?. Utilizar un nivel de significancía de =0.02. Conclusión: No rechazar Ho con un nivel de significancía = 0.02. Es decir no existe suficiente evidencia muestral, para concluir que hay diferencia entre las varianzas para los dos hornos. 81 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 3.34. Se realizó un estudio para decidir si hay o no la misma variabilidad en la presión sanguínea sistólica entre hombres y mujeres. Se utilizaron muestras aleatorias de 16 hombres y 13 mujeres para contrastar la afirmación de los investigadores en el sentido de que las varianzas eran diferentes. Realice el contraste de hipótesis, con = 0.05, utilizando los datos siguientes: Hombres 120 120 118 112 120 114 130 114 124 125 130 100 120 108 112 122 Mujeres 122 102 118 126 108 130 104 116 102 122 120 118 130 Conclusión: No rechazar Ho con un nivel de significancía = 0.05. La muestra no aporta evidencia para decir que la variabilidad de la presión sanguínea sistólica depende del individuo. 1 3.35. En un experimento acerca de la contaminación del aire, se comparan dos tipos de instrumentos para medir fa cantidad de monóxido de sulfuro en la atmósfera. Se desea determinar si los dos tipos de instrumentos producen mediciones que tienen la misma variabilidad variabilidad. Se registraron las siguientes lecturas para los dos instrumentos. Monóxido de sulfuro Instrumento A Instrumento B 0.86 0.87 0.82 0.74 0.75 0.63 0.61 0.55 0.89 0.76 0.64 0.70 82 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C 0.81 0.68 0.65 Media Desviación estándar 0.69 0.57 0.53 0.7455 0.673111 0.10405 0.11174 Suponiendo que las distribuciones de las poblaciones están distribuidas aproximadamente en forma normal, probar la hipótesis planteada con un nivel de significancía de =0.02. Conclusión: No rechazar Ho con un nivel de significancía = 0.02. Es decir no existe suficiente evidencia muestral que manifieste diferencias en la variabilidad de los instrumentos. 3.36. El Instituto del consumidor desea comparar la variabilidad en la eficacia de un medicamento elaborado por las compañías X e Y. Ambos medicamentos se distribuyen en forma de tabletas de 250 mg. Se determinó la eficacia en 25 tabletas en cada compañía encontrándose S21 = 2.09 y S22 =1.06. Realizar una prueba para contrastar la variabilidad de ambos medicamentos con =0.10. Conclusión: Rechazar Ho a favor de Ha con un nivel de significancía =0.10. Es decir la muestra proporciona evidencia sobre la diferencia en la variabilidad de ambos productos. 83 FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN ESTADÍSTICAS II UNIVERSIDAD DE SOTAVENTO, A.C BIBLIOGRAFÍA MENDENHALL W. INTRODUCCIÓN A LA PROBABILIDAD Y LA ESTADÍSTICA. MÉXICO: EDITORIAL IBEROAMERICANA. 1982. AAAA STEVENSON, W. ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMIA. MÉXICO: HARLA. 1981. H. T. HAYSLETT, JR. ESTADISTICA SIMPLIFICADA. MEXICO: EDICIONES MINERVA.1980. MURRAY R. SPIEGEL. PROBABILIDAD Y ESTADISTICAMEXICO: MC GRAW HILL.1980. PACHECO JOSE E. MANUAL DE ESTADISTICA Y PROBABILIDAD. MÉXICO: UV.1998. 84