Estadística Aplicada Tema 7 TEMA 7: TEORÍA DE MUESTRAS. ESTIMACIÓN 1. INTRODUCCIÓN Hasta ahora, hemos estudiado estadística descriptiva, una serie de procedimientos y técnicas, que permitían un conocimiento descriptivo de las características básicas de una población. Pero en general, no podremos casi nunca tratar con poblaciones al completo. Ya sea porque la población a estudiar es muy grande, ya sea por motivos económicos, de falta de personal cualificado, o para una mayor rapidez en la recogida y presentación de los datos, lo que se suele hacer es obtener los datos, de tan sólo una muestra de la población. No podemos estudiar todos los coches que salen de una cadena de producción para determinar su calidad, ni es posible ensayar un medicamento en todas las personas, ni podemos costearnos preguntar a todos los españoles sobre una cuestión cualquiera (salvo en un referéndum, votaciones, o en el censo, siendo estos los pocos casos en que un estudio comprende a toda la población). En consecuencia, deberemos contentarnos con utilizar muestras, que sean capaces de revelarnos algo acerca de la población de las que han sido extraídas. De la forma de elegirlas, y las condiciones que han de verificar, hablaremos en el siguiente epígrafe. La Estadística inferencial se ocupa de extender o extrapolar a toda una población, informaciones obtenidas de una muestra, así como de la toma de decisiones. Al trabajar con muestras, hay que diferenciar los valores observados en la muestra, que llamaremos estadísticos, de los valores reales correspondientes a la población, que llamaremos parámetros poblacionales. Observa desde muy de cerca la imagen de la izquierda. Observar esa imagen de esta manera, es equivalente a tomar una muestra de una población. En principio solo tienes en tu mente un conjunto de datos, que no te dicen nada. Sin embargo, si te alejas unos 5 metros y observas de nuevo la imagen, empezarás a extraer más información, y posiblemente adivines que representa esta imagen. Habrás hecho una inferencia de los datos muestrales, para tener una imagen del conjunto. Esta es en resumidas cuentas el objeto de las técnicas que se describen en este curso: obtener muestras e inferir datos sobre la población. 1 / 25 Estadística Aplicada Tema 7 Así por ejemplo, cuando se pretende conocer de antemano los resultados de unas elecciones, se suelen hacer encuestas sobre intención de voto, a una muestra de ciudadanos. Se trata en este caso, de extrapolar para toda la población, los resultados derivados de la encuesta. La Estadística Inferencial nos ayuda en este caso, aunque siempre existirá una probabilidad de equivocarse, y un margen de error en los resultados obtenidos. En otros casos, lo que se pretende es tomar decisiones, ya sea a partir de la estimación o de la contrastación de un test, y aquí también la estadística inferencial nos lo permite, siempre con un margen controlado de error. 2.- TEORÍA DE MUESTRAS Como ya hemos dicho, nuestro objetivo va a ser a partir de ahora, el tratamiento estadístico de muestras. ¿Pero bajo que condiciones, resulta apropiada una muestra? Existen una serie de factores que inciden en la respuesta de esta pregunta, y que resultan fundamentales en estadística inferencial. Para que los resultados obtenidos a partir de una muestra sean fiables, esta tiene que cumplir dos condiciones fundamentales: • Tener un tamaño adecuado. • Que sus elementos hayan sido seleccionados de manera aleatoria. Si cumple estas dos condiciones diremos que la muestra es representativa. En el caso en que la selección no sea aleatoria se dirá que la muestra es sesgada. Respecto a la primera condición, el tamaño que ha de tener la muestra, parece evidente, que a mayor tamaño, más se acercaran los parámetros que calculemos a los de la población. En la práctica real, el número de elementos de una muestra está determinado por una serie de factores: grado de fiabilidad deseado, dificultad en la elección de los elementos que la compongan, tiempo necesario para la elección, gastos originados,... Respecto a la segunda condición, la cuestión más importante es ¿cómo deben ser elegidos los elementos que la compongan? Será necesario que en el momento de la elección de los elementos de la muestra, verifiquemos que todos los elementos de la población tienen igual probabilidad de ser elegidos. Cuando no se tienen en cuenta estos dos principios básicos, las inferencias realizadas son deficientes. Existe una variedad de “mentiras estadísticas”, procedentes de afirmaciones basadas en pequeñas muestras, o en muestras no representativas. Así por ejemplo, si se dice “7 de cada 10 dentistas consultados recomiendan el dentífrico X”, no debemos inferir que el 70% de los dentistas los recomiendan, hasta saber de que forma fueron elegidos los dentistas consultados, y cuántos fueron en total. Ejercicio 1: En los años treinta, en Estados Unidos, se hizo una encuesta telefónica para pronosticar el ganador de las siguientes elecciones presidenciales. El pronóstico fue que ganaría el candidato republicano, pero en realidad ganó el candidato demócrata. ¿Crees que la muestra elegida fue representativa? ¿Por qué? Ayuda: Piensa en la situación en los Estados Unidos en los años treinta. Las consideraciones referentes al tamaño de la muestra, se estudiarán más adelante. Las referentes a la forma de elegir la muestra, serán estudiadas ahora. 2 / 25 Estadística Aplicada Tema 7 2.1 Tipos de muestreos Existen básicamente dos tipos de muestreo, los aleatorios y los no aleatorios. En los primeros, el aspecto principal, es que todos los miembros de la muestra han sido elegidos al azar, de forma que cada miembro de la población tuvo igual oportunidad de salir en la muestra. Este tipo de muestreo, que es el más consistente, es al mismo tiempo el que resulta más costoso, y el que utilizaremos siempre en el desarrollo de los próximos epígrafes. Los centros oficiales como el INE, utilizan siempre muestreos aleatorios. Los segundos, carecen del grado de representatividad de los primeros, pero permiten un gran ahorro en los costes. Se eligen los elementos, en función de que sean representativos, según la opinión del investigador. Es el método que utilizan generalmente las empresas privadas, y presenta el inconveniente de que la precisión de los resultados no es muy grande, y es difícil medir el error de muestreo. 2.1.1 Muestreo aleatorio simple Su utilización es muy sencilla, una vez que todos los elementos de la población han sido identificados y numerados (y éste es probablemente su mayor inconveniente). A partir de aquí, decidido el tamaño n de la muestra, los elementos que la compongan se han de elegir aleatoriamente entre los N de la población. El método más adecuado para la elección en nuestro caso, es la utilización de tablas de números aleatorios. Si queremos elegir una muestra formada por 40 elementos de una población de 600, iremos tomando cifras aleatorias de tres en tres. Si la cifra considerada es menor de 600, ya tendremos elegido un elemento de la muestra. Siguiendo este proceso, y saltándonos las cifras superiores a 600, podremos elegir todos los elementos que compondrán la muestra. 2.1.2 Muestreo aleatorio sistemático Es análogo al anterior, aunque resulta más cómoda la elección de los elementos. Si queremos obtener una muestra de tamaño n, en una población de tamaño N, procederemos así. Se ordenan y numeran los elementos de la población. El primer elemento de la muestra, llamado origen, se N . Los demás valores se obtiene al azar. Posteriormente, hallamos el entero k más próximo a n obtienen sumando al primer elemento el número k, teniendo en cuenta que, al sobrepasar N, debemos empezar de nuevo. Ejemplo: Si hemos de elegir 40 elementos de un grupo de 600. Se elige al azar un elemento de salida, que supongamos es el 6. Posteriormente se calcula el cociente 600 : 40 = 15. El resto de los elementos serán los que tengan los números: 6 + 15, 6 + 2 · 15, ..., 6 + 39 · 15. Este procedimiento simplifica enormemente la elección de elementos, pero puede dar al traste con la representatividad de la muestra, cuando los elementos se hayan numerados por algún criterio concreto, y los k-ésimos tienen todos una determinada característica, que haga conformarse una muestra no representativa. Ejercicio 2: En un centro escolar estudian 350 alumnos de ESO y 150 de bachillerato. Explica cómo se puede elegir por muestreo aleatorio simple una muestra de 25 alumnos. 3 / 25 Estadística Aplicada Tema 7 2.1.3 Muestreo aleatorio estratificado Cuando la población no es homogénea respecto a la variable aleatoria objeto de estudio, para mejorar las estimaciones, conviene distinguir en ella, clases o estratos, y proceder a lo que se llama un muestreo aleatorio estratificado. En este tipo de muestreo los estratos se deben elegir de manera que sean lo más homogéneos posible respecto a la variable aleatoria a estudiar y que entre ellos exista la mayor diferencia posible. Afijación: Es el reparto del tamaño de la muestra entre los diferentes estratos en que hemos dividido la población. Afijación Uniforme: Consiste en tomar para la muestra el mismo número de individuos por cada estrato. Afijación Proporcional: Consiste en distribuir los individuos que forman la muestra proporcionalmente al número de individuos de cada estrato. Una vez determinado el número de individuos que deben pertenecer a cada estrato, se procede a la selección de individuos de cada estrato por muestreo aleatorio simple. Ejemplo: En un instituto de enseñanza secundaria en que se ofertan los siguientes tipos de enseñanza: • Ciclos de grado superior: 110 alumnos. • Bachillerato: 162 alumnos. • Ciclos de grado medio: 210 alumnos. • 2º ciclo de enseñanza secundaria obligatoria: 338 alumnos. Se pretende valorar las faltas de ortografía que cometen los alumnos del centro mediante la realización de una prueba consistente en un dictado de un texto de 20 líneas; la prueba se pasará a una muestra de 50 alumnos, para minimizar el coste en tiempo y medios. En esta situación parece conveniente utilizar para la extracción de la muestra el muestreo aleatorio estratificado con afijación proporcional. Dividimos la población en cuatro estratos: ciclos de grado superior, ciclos de grado medio, bachillerato y 2º ciclo de enseñanza secundaria obligatoria. Como el número total de alumnos son 820 y la muestra debe estar formada por 50 alumnos, el cálculo del número de alumnos que se han de tomar de cada estrato es: Ciclos de grado superior: 820 → 110 50·110 ≈7 ⇒ x= 50 820 → x Bachillerato: 820 → 162 50·162 ≈ 10 ⇒ x= 50 820 → x Ciclos de grado medio: 820 → 210 50· 210 ≈ 13 ⇒ x= 50 820 → x 2º ciclo de Enseñanza Secundaria Obligatoria: 820 → 338 50·338 ≈ 20 ⇒ x= 50 820 → x 4 / 25 Estadística Aplicada Tema 7 Ejercicio 3: En un centro, hay 2000 alumnos, 720 en 3º de ESO, 700 en 4º de ESO, 340 en 1º de Bachillerato, y 240 en 2º de Bachillerato. Si deseamos tomar una muestra de 100 alumnos, para conocer la opinión que tiene el alumnado sobre una medida que ha tomado el Consejo Escolar, ¿cómo elegirías una muestra de 100 alumnos por muestreo aleatorio estratificado? Solución: 3º de ESO: 36 alumnos; 4º de ESO: 35 alumnos; 1º de Bachillerato: 17 alumnos; 2º de Bachillerato: 12 alumnos. 2.1.4 Muestreo aleatorio por conglomerados A veces, para simplificar los procesos de toma de datos, se empieza por elegir ciertos conglomerados (que pueden ser bloques de viviendas, municipios, urnas electorales,...) y dentro de ellos se realiza el muestreo aleatorio. Si no disponemos de la relación de los elementos de la población, o de los posibles estratos, no podemos aplicar los muestreos anteriores. Entonces, entra en escena el llamado muestreo por conglomerados, donde en lugar de elegir individuos directamente, se eligen unidades más amplias donde se clasifican los elementos de la población, llamados conglomerados. En cada etapa del muestreo en lugar de seleccionar elementos al azar seleccionamos conglomerados. Los conglomerados deben ser tan heterogéneos como la población a estudiar, para que la represente bien. Luego se elegirían algunos de los conglomerados al azar, y dentro de éstos, se analizan todos sus elementos o se toma una muestra aleatoria simple. No debemos confundir estrato y conglomerado. Un estrato es homogéneo (sus elementos tienen las mismas características), mientras que un conglomerado es heterogéneo (debe representar bien a la población) Ejemplo: Supongamos que queremos extraer una muestra aleatoria de los estudiantes universitarios del país. Necesitaríamos una lista con todos ellos para poder realizar algún muestreo del tipo de los 3 anteriores, lo cual es muy difícil de conseguir. Sin embargo, los estudiantes están clasificados por Universidades, Facultades y Clases. Podemos seleccionar en una primera etapa algunas Universidades, después algunas facultades al azar, dentro de las facultades algunas clases y dentro de las clases, algunos estudiantes por muestreo aleatorio simple. Los conglomerados en cada etapa serían las diferentes Universidades, las diferentes facultades y las diferentes clases. Como vemos los conglomerados son unidades amplias y heterogéneas. Ejercicio 4: Utilizando una tabla de números aleatorios, elige 15 elementos de una población numerada del 1 al 89. Ejercicio 5: Di de que forma elegirías una muestra de 50 alumnos de tu instituto, por muestreo aleatorio simple, sistemático y estratificado (cada estrato una clase, o un nivel). Ejercicio 6: De los 500 directores de complejos turísticos de nuestras Islas, 300 corresponden a complejos de 20 o menos habitaciones, 150 a complejos de entre 20 y 50 habitaciones y por último 50 corresponden a complejos de más de 50 habitaciones. Si pretendieras hacer una encuesta a una muestra de tamaño 50, ¿cómo la tomarías? Ejercicio 7: Un hospital dispone de un listado de los pacientes, organizados por áreas de atención (neurología, traumatología,....). Di que tipos de muestreo podrían realizarse, y como los harías. 5 / 25 Estadística Aplicada Tema 7 Ejercicio 8: Alberto trabaja en un tren revisando que los viajeros llevan el billete correcto. Como hoy el tren va totalmente lleno, 300 viajeros, no puede comprobar que todos los viajeros llevan el billete correcto. Por ello va a revisar el billete a 75 pasajeros que los elegirá mediante un muestreo sistemático. Explica cómo lo hará. Nota: Aunque hemos descrito los más importantes métodos de muestreo aleatorio, en lo que sigue supondremos siempre que el muestreo utilizado es el aleatorio simple. 3.- DISTRIBUCIONES MUESTRALES DE LAS MEDIAS. TEOREMA CENTRAL DEL LÍMITE Hemos dicho ya, que el objetivo de nuestro estudio es poder extender a la población lo que obtengamos de una muestra. Imagina que de la población formada por todos los alumnos del instituto, extraes aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad, encontrando que la edad media obtenida es de 15,8 años. Pero, ¿qué ocurriría, si extrajéramos otra muestra? ¿Coincidirían las medias? ¿Y coincidirían con la media de la población? Lo cierto es que parece lógico pensar que aunque no tengan porqué coincidir, si deberían estar bastante próximas. Pero, ¿cuánto de próximas? ¿Dependería esta proximidad del tamaño de las muestras que elegimos? Parece necesario, que estudiemos la variabilidad de las medias obtenidas de las muestras que repetidamente se extraigan. El siguiente resultado, responde claramente a las preguntas planteadas. 3.1 Distribución muestral de las medias Supongamos que se quiere estudiar la media µ de una población. Para ello consideramos todas las muestras de tamaño n de la población objeto de estudio, M1, M2, … y calculamos sus medias, x1 , x2 , … X Sea X la variable aleatoria que asigna a cada muestra su media: Mi → xi La variable aleatoria X se denomina media muestral y la distribución que sigue se llama distribución muestral de las medias. Si µ y σ son la media y la desviación típica poblacionales, y µ X y σ X son la media y la desviación típica de X , se verifica que: • La media de los datos, es la media µ de la población, es decir la media de las medias de las muestras, µ X , es igual que la media de la población. µX = µ • Estas medias se distribuyen alrededor de la media de la población, con una desviación típica (llamada desviación típica de la media), igual a la de la población dividida por la raíz de n, σ es decir, la desviación típica de la media muestral es . n σ σX = n 6 / 25 Estadística Aplicada Tema 7 3.2 El teorema central del límite (TCL) Si una población tiene media µ y desviación típica σ, y tomamos muestras de tamaño n (n ≥ 30, o cualquier tamaño, si la población de partida es “normal”), las medias de estas muestras siguen aproximadamente la distribución: σ N µ, n Por tanto, la distribución de las medias muestrales, es una distribución de tipo “normal”, siempre que la población de procedencia lo sea, o incluso si no lo es, siempre que el tamaño de las muestras sea 30 o mayor. ɵ n−1 : Nota: Si σ es desconocida y n ≥ 30, se sustituye por la cuasidesviación típica muestral, σ ɵ n−1 = σ n σn n −1 siendo σn la desviación típica muestral. σ , que n es el grado de variabilidad de las medias muestrales. Cuanto menor sea, más ajustadas a la media de la población serán las medias que obtengamos de una muestra. De su propia definición, es fácil darse cuenta de que cuanto mayor es el tamaño de la muestra, menor es este grado de variabilidad, y por tanto más similar a la media de la población será la media obtenida de la muestra. Es decir, cuanto mayor es el valor de n, mejor es la aproximación “normal”. Hemos citado una cosa importante: la desviación típica de la distribución de las medias es En términos más coloquiales, lo que en definitiva establece el TCL, es que la distribución de la media, o de las sumas, de diferentes valores da como resultado una distribución normal. De ahí la omnipresente aparición de distribuciones normales. Piensa en los factores biológicos y antropométricos. Por ser el resultado de diferentes combinaciones genéticas y suma de muchos diferentes factores, dan como resultados distribuciones normales. También por análogas razones muchísimos parámetros sociológicos, económicos, físicos,… siguen distribuciones de este tipo. Ejemplo: Una compañía aérea sabe que el equipaje de sus pasajeros tiene como media 25 kg. con una desviación típica de 6 kg. Si uno de sus aviones transporta a 50 pasajeros, el peso medio de los equipajes de dicho grupo estará en la distribución muestral de medias: 6 N 25, = N (25; 0,84) 50 La probabilidad de que el peso medio para estos pasajeros sea superior a 26 kg sería: 26 − 25 P ( X > 26) = P Z > = P (Z > 1,18) = 0,1190 ≈ 11,90 % 0,84 Ejercicios 9: Una variable aleatoria X sigue una distribución normal de desviación típica 3. Si se consideran muestras de tamaño 16, ¿qué distribución sigue la media muestral? Solución: Sigue una distribución normal con la misma media y desviación típica 0,75. 7 / 25 Estadística Aplicada Tema 7 Ejercicios 10: Si una población sigue una distribución N (5; 0,5) y elegimos todas las muestras de tamaño 100. a) ¿Cuál es el valor de la media de las medias muestrales? b) ¿A qué valor se aproxima la desviación típica? Solución: a) µ = 5; b) σ = 0,05 Ejercicios 11: La masa de las peras de una cosecha se distribuyen normalmente con media 125 g y una desviación típica de 20 g. a) ¿Cuál es la probabilidad de que una pera elegida al azar pese más de 130 g? b) ¿Cuál es la probabilidad de que el peso medio en una muestra de 25 peras sea mayor de 130 g? Solución: a) 0,4013; b) 0,1056 4.- DISTRIBUCIÓN MUESTRAL DE LAS PROPORCIONES Supongamos que se quiere estudiar qué proporción, p, de una población cumple cierta característica. Para ello consideramos todas las muestras posibles de tamaño n de la población p1 , p2 , … objeto de estudio, M1, M2, … y calculamos la proporción en cada una de ellas, P la variable aleatoria que asigna a cada muestra su proporción: Mi Sea P → pi se llama distribución muestral de las La distribución de probabilidad de esta variable aleatoria P proporciones. , respectivamente, se verifica que: Si µ P y σ P son la media y la desviación típica de P • µ P = p • σ P = • se aproxima a una normal (siempre que A medida que n crece (n ≥ 30), la distribución de P p no se acerque a 0 o a 1): ∼ N p, pq P n p·q = n p ·(1 − p) n Ejemplo: Imaginemos que sabemos que la proporción del alumnado de nuestro centro que es favorable a realizar una huelga es del 60 %. Cuando elegimos a un alumno, y nos preguntamos si es favorable a la huelga, es como si realizáramos una prueba binomial con probabilidad de éxito p = 0,6. Cuando elegimos muestras aleatorias de 70 alumnos, el número de ellos favorable a la huelga, deberá seguir una distribución B (70; 0,6), o bien, la proporción de ellos que es favorable se debe distribuir según: ∼ N 0, 6; 0, 6·0, 4 = N (0,6; 0,058) P 70 Es decir, las proporciones que vayamos encontrando para muestras de tamaño 70, se irán distribuyendo de forma “normal” alrededor del 60 %, con una desviación típica del 5,8 %. 8 / 25 Estadística Aplicada Tema 7 Ejercicios 12: En unas elecciones, el 52 % de la población votó al candidato A. Si antes de las elecciones se hubiese hecho un sondeo en una muestra de 500 habitantes, ¿cuál hubiese sido la probabilidad de obtener menos de un 50 % de votos para ese candidato, suponiendo que se ha mantenido la intención de voto? Solución: 0,1814 Ejercicios 13: Al 75 % de los jóvenes de una ciudad les gusta el cine. Si seleccionamos 25 muestra de 100 jóvenes cada una, ¿en cuántas cabe esperar que el porcentaje de jóvenes cinéfilos esté comprendido entre el 70 % y el 80 %? ¿Y si las muestras fueses de 1000 jóvenes? Solución: 19; 25 5.- DISTRIBUCIÓN DE LAS SUMAS MUESTRALES Supongamos que en la cafetería de una fábrica hay una máquina dispensadora de botellas de agua. La empresa suministradora de agua desea averiguar ¿cuántas botellas se consumen al día por término medio? Supongamos que el consumo de botellas de agua por empleado tiene una media µ y una desviación típica σ. Para hacerse una idea de cómo puede ser µ, podemos hacer lo siguiente. Consideramos todas las muestras posibles de tamaño n de la población objeto de estudio, M1, M2, … y calculamos la media en cada una de ellas, t1, t2, … T Sea T la variable aleatoria que asigna a cada muestra su media: Mi → ti Los distintos valores de ti dan lugar a una variable aleatoria que se representa por T. La distribución de los valores de T se llama distribución de las sumas muestrales. Dicha variable aleatoria T tiene las siguientes características: • • • Media: nµ Desviación típica: σ n A medida que n crece (n ≥ 30), la distribución de T se aproxima a una normal: T ∼ N (nµ, σ n ) Ejemplo: Se sabe que el peso medio de los pasajeros de un avión es de 74 kg con una desviación típica de 6 kg. Por las normativas de seguridad, la suma de los pesos de los pasajeros no puede superar las 3 toneladas. Si la compañía aérea ha vendido 40 pasajes, ¿cuál es la probabilidad de que cumpla con esa normativa de seguridad? La suma de los pesos sigue una distribución N (nµ, σ n ) = N (40 · 74, 6 · 40 ) = N (2960; 37,95). La probabilidad pedida es, por tanto: 3000 − 2960 P (T ≤ 3000) = P Z ≤ = P (Z ≤ 1,05) = 0,8531 37, 95 Ejercicio 14: Las notas de PAU de los estudiantes de una localidad tienen una media de 5,35 y desviación típica de 1,26. Se toma al azar una muestra de 100 estudiantes. ¿Cuál es la distribución que sigue la suma de las notas de la muestra? Solución: N (535; 12,6) 9 / 25 Estadística Aplicada Tema 7 Ejercicios 15: El ascensor de cierto edificio puede transportar una carga máxima de 300 kg. a) Si el peso en kilogramos de los usuarios de ese ascensor tiene distribución N (63, 12), ¿cuál es la probabilidad de que un grupo aleatorio de cuatro de ellos sobrepase el peso límite? b) Se sabe que el 64,8 % de las veces que el ascensor es usado por un grupo de 4 personas, el peso total de los usuarios no excede cierto peso x0 ¿Cuál es el valor de x0? Solución: a) 0,0228; b) 261,12 kg Ejercicios 16: Sabemos que las bolsas de azúcar producidas en una fábrica tienen una media de 500 gramos de peso y una desviación típica de 35 gramos. Dichas bolsas se empaquetan en cajas de 100 unidades. Calcula la probabilidad de que una caja pese más de 51 kilogramos. Solución: 0,0021 6.- DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE MEDIAS Supongamos que se quieren comparar las medias µ1 y µ2 de dos poblaciones diferentes. Para ello consideramos todas las muestras posibles de tamaño n1 de la primera población, M11, M12, … y se calculan sus medias, x11 , x12 , ... De forma análoga, se toman todas las muestras posibles de tamaño n2 de la segunda población, M21, M22, … y se calculan sus medias, x 21 , x 22 , ... Sea X 1 − X 2 la variable aleatoria que asigna a cada par de muestras de una y otra población la X1 − X 2 diferencia de sus medias: (M1i, M2j) → x1i − x 2 j La distribución de probabilidad de esta variable aleatoria, X 1 − X 2 , se llama distribución muestral de la diferencia de medias. Si X 1 y X 2 son independientes y µ X − X 1 2 y σX −X 1 son la media y la desviación típica, 2 respectivamente, de X 1 − X 2 , respectivamente, se cumple que: • µ X − X = µ1 – µ2 • σX −X = • • Si las poblaciones tienen una distribución normal, X 1 − X 2 es normal. Si las poblaciones no tienen una distribución normal, a medida que n1 y n2 crecen (n1 ≥ 30 y n2 ≥ 30), la distribución de X 1 − X 2 se aproxima a una normal. 1 1 2 2 σ12 σ2 2 + , siendo σ1 y σ2 las desviaciones típicas poblacionales. n1 n2 σ2 σ 2 X 1 − X 2 ∼ N µ1 − µ 2 , 1 + 2 n1 n2 Nota: En el caso de que σ1 y/o σ2 sean desconocidas, pero n1 ≥ 30 y n2 ≥ 30, podemos considerar las aproximaciones: n1 n2 σ1 ≈ σɵ n1 −1 = σn1 y σ2 ≈ σɵ n2 −1 = σn n1 − 1 n2 − 1 2 siendo σn1 y σn2 las desviaciones típicas de las muestras de sendas poblaciones. 10 / 25 Estadística Aplicada Tema 7 Ejemplo: La duración media, en años, de los frigoríficos de la marca A es 18, y la de los de la marca B, 16. Las desviaciones típicas son 3 y 5 años respectivamente. Se toman 75 frigoríficos de la marca A y 50 de la marca B, y se observa su duración media. ¿Cuál es la probabilidad de que la duración media de la muestra A supere en más de un año a la duración de la muestra B? Consideramos la variable aleatoria X 1 − X 2 que asigna a cada par formado por una muestra de A y una de B la diferencia de sus duraciones medias. Los datos del enunciado son: µ1 = 18, µ2 = 16, σ1 = 3 y σ2 = 5, n1 = 75 y n2 = 50. Como se cumple que n1 = 75 ≥ 30 y n2 = 50 ≥ 30, se tiene que: σ2 σ 2 X 1 − X 2 ∼ N µ1 − µ 2 , 1 + 2 = N n1 n2 32 52 + = N (2; 0,787) 18 − 16, 75 50 Así: 1− 2 P ( X 1 − X 2 > 1) = P Z > = P (Z > –1,27) = P (Z< 1,27) = 0,8980 0, 787 Ejercicios 17: En la Comunidad A, el salario medio es de 1290 € con una varianza de 0,25 €, y el Comunidad B, el salario medio es de 1286,21 € con una varianza de 0,3. Si tomamos una muestra aleatoria de 36 personas en la Comunidad A y de 49 en la B, determina la probabilidad de que la muestra procedente de A tenga un salario medio que sea al menos 4 € superior al salario medio de B. Solución: 0,0281 Ejercicios 18: Se selecciona una muestra de 16 observaciones que sigue una ley N (0, 4). Seleccionamos otra muestra de 36 observaciones de una N (1, 3). Calcula la probabilidad de que la media de la primera supere a la de la segunda. Solución: 0,1867 7. ESTIMACIÓN El objetivo principal de la estadística inferencial es el estudio de la población, y realizar predicciones a cerca de ella pero a partir de una muestra, no de la población entera. Distinguiremos, por tanto, entre: 1. Parámetros poblacionales o parámetros: Son los índices centrales y de dispersión que definen a una población. Representaremos la media poblacional por µ, y la desviación típica poblacional por σ. En el caso de proporciones, la proporción de población que tiene una determinada característica la denotaremos por p y la proporción que no la cumple por q = 1 – p. 2. Estadísticos poblacionales o estadísticos: Son los índices centrales y de dispersión que definen a una muestra. Representaremos la media muestral por x y la desviación típica muestral por σn. En el caso de proporciones, la proporción de muestra que tiene una determinada característica la denotaremos por p y la proporción que no la cumple por qɵ = 1 – p . 11 / 25 Estadística Aplicada Tema 7 Llamaremos estimación, al procedimiento utilizado cuando se quiere conocer las características de un parámetro poblacional, a partir del conocimiento de un estadístico de la muestra. La estimación se puede realizar mediante dos procedimientos diferenciados: • Puntual: se toma como valor del parámetro poblacional el calculado para el estadístico muestral. • Por intervalos de confianza: consiste en determinar un intervalo (a, b) tal que, para un nivel de confianza 1 – α, se verifique que: P (parámetro ∈ (a, b)) = 1 – α. 7.1 Estimación puntual En una primera aproximación, parece lógico pensar que si queremos determinar la media de una cierta población, si hemos cogido una muestra representativa de dicha población, la media de la muestra (que es fácilmente calculable) será muy parecida a la de la población y por tanto sirva para estimarla. Diremos que realizamos una estimación puntual, si de la muestra obtenemos un sólo valor que extrapolamos directamente para el parámetro desconocido. A la hora de estimar el valor del parámetro poblacional se exige al estadístico una serie de propiedades: − Centrado o insesgado: La media de la distribución muestral coincide con la media poblacional. − Eficiente: es el de menor varianza de entre todos los insesgados. − Consistente: Al aumentar el tamaño de la muestra, las desviaciones o errores tienden a desaparecer. − Suficiente: facilita toda la información que tiene la muestra acerca del parámetro poblacional. Si el estimador elegido cumple estas condiciones, tendremos una probabilidad alta de que el parámetro estimado a partir de una muestra difiera poco del valor real. Esta probabilidad será mayor cuanto más eficiente sea el estimador. De lo estudiado en apartados anteriores podemos deducir que algunos buenos estimadores utilizados para estimar puntualmente parámetros poblacionales son: Muestra Población (Parámetro) (Estadístico) µ x p p µ1 – µ2 X1 − X 2 σ ɵ n−1 σ 12 / 25 Estadística Aplicada Tema 7 7.2 Estimación por intervalos de confianza La estimación anterior, la puntual, se utiliza poco, pues no tenemos datos suficientes que nos indiquen el grado de fiabilidad del parámetro poblacional estimado. Más completa que la estimación puntual es la estimación por intervalos de confianza, ya que en lugar de proporcionarnos un solo valor como estimación del parámetro desconocido, nos da todo un intervalo donde puede encontrarse dicho valor. Este procedimiento de estimación nos permite calcular dos valores entre los que esperamos que esté el parámetro buscado con un cierto nivel de confianza, que llamaremos 1 – α, donde α es el nivel de riesgo fijado de antemano. Supongamos que decidimos estimar el valor de un parámetro A por intervalos de confianza. Nuestro objetivo será encontrar un intervalo I, obtenido a partir de una muestra, tal que exista una probabilidad elevada de que contenga al parámetro λ. Llamamos intervalo de confianza para un parámetro λ, con un nivel de confianza, 1 – α, siendo 0 < α < 1 (a α se le llama nivel de significación), a un intervalo real (a, b), tal que la probabilidad de que el parámetro λ pertenezca a dicho intervalo es 1 – α, es decir: P (a ≤ λ ≤ b) = 1 – α Se llama error de estimación, al radio de anchura del intervalo de confianza. A continuación, vamos a determinar el intervalo de confianza. Supongamos que queremos hacer una estimación por intervalos de confianza con nivel de confianza 1 – α del parámetro λ. Sea S un estimador insesgado del parámetro λ, y supongamos que S tiene distribución normal de media µS (µS = λ) y desviación típica σS. Se trata de determinar un intervalo I tal que: P (λ ∈ I) = 1 – α Puesto que S ~ N (λ, σS), al tipificar obtenemos: Z= S −λ ~ N (0, 1) σS Puesto que la distribución de Z está tabulada, podemos hallar el intervalo (– zα/2, zα/2) tal que: P (– zα/2 ≤ Z ≤ zα/2) = 1 – α El valor zα/2 se llama valor crítico de nivel de confianza 1 – α. Pero se verifica que: S −λ ≤ zα/2 ⇔ σS –S – zα/2 · σS ≤ –λ ≤ S + zα/2 · σS ⇔ – zα/2 ≤ Z ≤ zα/2 ⇔ ⇔ – zα/2 ≤ 13 / 25 – zα/2 · σS ≤ S – λ ≤ zα/2 · σS S – zα/2 · σS ≤ λ ≤ S + zα/2 · σS ⇔ Estadística Aplicada Tema 7 Por tanto, se cumple que: P (– zα/2 ≤ Z ≤ zα/2) = 1 – α ⇔ P (λ ∈ (S – zα/2 · σS, S + zα/2 · σS)) = 1 – α Vemos, pues, que conocido el valor del estimador en una muestra M, S (M) = λɵ , el intervalo de confianza con nivel de confianza 1 – α viene dado por: Iα ( λɵ ) = ( λɵ – zα/2 · σS, λɵ + zα/2 · σS) A continuación puedes ver el procedimiento que debemos seguir para calcular estos valores críticos. • • Fijamos el nivel de confianza 1 – α. Buscamos zα/2 tal que: 1 – α = P (–zα/2 ≤ Z ≤ zα/2) = P (Z ≤ zα/2) – P (Z ≤ – zα/2) = = P (Z ≤ zα/2) – [1 – P (Z ≤ zα/2)] = 2 P (Z ≤ zα/2) – 1 Entonces: P (Z ≤ zα/2) = 1 – • α 2 Usando las tablas de la distribución normal estándar se obtiene el valor zα/2. Ejemplo: Si 1 – α = 0,95, entonces α/2 = 0,025. Luego si zα/2 deja a su derecha un área igual a 0,025, a su izquierda dejará un área igual a 1 – α/2 = 1 – 0,025 = 0,975. Buscando en las tablas de la N (0, 1), tenemos que zα/2 = 1,96. Ejercicio 19: Calcula los valores críticos para unos niveles de confianza del 90 % y del 99 %. Solución: 1,65; 2,58 7.2.1 Intervalo de confianza para la media µ σ Sabemos que si la población de partida es normal, o si n ≥ 30, entonces X ~ N µ, . n 14 / 25 Estadística Aplicada Tema 7 Así, si calculamos el valor de la media correspondiente a la muestra M de tamaño n, X (M) = x , se tiene que el intervalo de confianza para la media con nivel de confianza 1 – α es: σ σ , x + zα / 2 x − zα / 2 n n Recuerda: En el caso de que σ sea desconocida, como estamos suponiendo n ≥ 30, podemos aproximar σ por el valor: n σ ≈ σɵ n−1 = σn n −1 siendo σn la desviación típica asociada a la muestra. Ejemplo: Las especificaciones de un fabricante de botes de pintura dicen que el peso de los botes sigue una distribución normal de media 1 kg de pintura y una desviación estándar de 0,1 kg. a) ¿Cuál es la media y la desviación estándar de la media muestral de los pesos de una muestra aleatoria simple de 20 botes? b) Se ha comprado un lote del que se ha tomado una muestra de 20 botes y en el que la media de los pesos obtenidos es de 0,98 kg, Construye un intervalo de confianza del 95 % para la media. a) La distribución de la media muestral de tamaño n obtenidas en una población de media µ y σ desviación típica σ, N (µ, σ), se distribuye según una normal N µ, . En nuestro caso: n Población: X ≈ N (1; 0,1) 0,1 Media muestral: X ≈ N 1, ≈ N (1; 0,022) 20 b) El intervalo de confianza de la media poblacional, para las muestras de tamaño muestral n de media x , es: σ σ , x + zα / 2 x − zα / 2 n n siendo σ la desviación típica poblacional y zα/2 el valor correspondiente en la tabla normal para una confianza de 1 – α. En este caso: x = 0,98, σ = 0,1, n =20 y, para el 95 % de confianza, zα/2 = 1,96. El intervalo pedido es: σ σ 0,1 0,1 , x + zα / 2 , 0,98 + 1, 96 = (0,937; 1,023) x − zα / 2 = 0,98 − 1,96 n n 20 20 Ejercicios 20: Las alturas, expresadas en centímetros, de los estudiantes de segundo de Bachillerato se distribuyen normalmente con una desviación típica de 20 cm. En un colectivo de 500 estudiantes de segundo de Bachillerato se ha obtenido una media de 160 cm. Calcula, con una probabilidad del 98 %, entre qué valores estará la media de la altura de la población total de estudiantes de segundo de Bachillerato. Interpreta el significado del intervalo obtenido. Solución: I = (157,16; 162,08); En al menos el 98 % de las posibles muestras, la media de la altura de la población está entre (157,162,08) 15 / 25 Estadística Aplicada Tema 7 Ejercicios 21: Se quiere conocer la permanencia media de pacientes en un hospital, con el fin de estudiar una posible ampliación del mismo. Se tienen datos referidos a la estancia, expresada en días, de 800 pacientes, obteniéndose los siguientes resultados: x = 8,1 días; s = 9 días. Se pide obtener un intervalo de confianza del 95 % para la estancia media. Solución: I = (7,476; 8,723) Ejercicios 22: Se hizo una encuesta aleatoria entre 130 estudiantes universitarios, de los cuales 85 eran mujeres, sobre el número de horas que estudian diariamente fuera del aula, obteniéndose una media de 3,4 horas. a) Si la desviación típica es de 1,1 horas, obtener un intervalo de confianza, al 98 %, para la media del número de horas que estudian diariamente fuera del aula los estudiantes universitarios. b) Obtener un intervalo de confianza, al 90 %, para la proporción de mujeres entre los estudiantes universitarios. Solución: a) I = (3,175; 3,625) b) I = (0,6123; 0,6957) 7.2.2 Intervalo de confianza para la proporción p Veamos ahora cómo calcular el intervalo de confianza para la proporción p de individuos de una población que cumplen cierta característica. Sabemos que si n ≥ 30, entonces, p ~ N p, p ·(1 − p ) . Así, si calculamos el valor de la n (M) = p , se tiene que el intervalo de proporción correspondiente a la muestra M de tamaño n, P confianza para la proporción con un nivel de confianza 1 – α es: p − zα/2 p (1 − p ) , p + zα/2 n p (1 − p ) n En la práctica p es desconocido, pero como n ≥ 30, se sustituye p por p . Así, en la práctica el intervalo de confianza que se utiliza es el que viene dado por la fórmula: p (1 − p ) p (1 − p ) p − zα/2 , p + zα/2 n n Ejemplo: Si en una muestra de tamaño 30 hay 12 alumnos con dos o más hermanos, halla un intervalo de confianza del 75 % para la proporción de dichos alumnos en la población. 12 La proporción de la muestra es p = = 0,3. El intervalo de confianza para la proporción de la 30 población es: p (1 − p ) p (1 − p ) p − zα/2 , p + zα/2 n n siendo p la proporción de la muestra, n el tamaño muestral y zα/2 el valor correspondiente en la tabla normal para una confianza de 1 – α. En nuestro caso, para el 75 % de confianza, zα/2 = 0,8092; 16 / 25 Estadística Aplicada Tema 7 p = 0,3, n = 30. Luego, el intervalo de confianza será: p (1 − p ) p (1 − p ) p − zα/2 = , p + zα/2 n n 0, 3·0, 7 0,3·0, 7 = 0,3 − 0,8092 , 0,3 + 0,8092 = (0,232; 0,368) 30 30 Ejercicios 23: De una muestra aleatoria de 2100 personas de una población hay 630 que leen un determinado diario. Calcular el intervalo de confianza para la proporción poblacional para un nivel de confianza del 99 %. Solución: I ≈ (0,274, 0,326) Ejercicios 24: Tomada al azar una muestra de 60 alumnos de la universidad se encontró que un tercio hablaban el idioma inglés. Hallar, con un nivel de confianza del 90 %, un intervalo para estimar la proporción de alumnos que hablan el idioma inglés entre los alumnos de la universidad. Solución: I ≈ (0,23; 0,43) 7.2.3 Intervalo de confianza para la diferencia de medias Hemos visto que si las dos poblaciones de partida tienen distribución normal, o si n1 ≥ 30 y n2 ≥ 30, entonces: σ2 σ 2 X 1 − X 2 ∼ N µ1 − µ 2 , 1 + 2 n1 n2 Así, si calculamos el valor de la diferencia de medias correspondientes a las muestras M1 y M2 de tamaños n1 y n2, respectivamente, X 1 − X 2 (M1, M2) = x1 – x2 , se tiene que el intervalo de confianza para la diferencia de medias a un nivel de confianza 1 – α es: σ12 σ 2 2 σ12 σ2 2 + , x1 − x2 + zα / 2 + x1 − x2 − zα / 2 n1 n2 n1 n2 Recuerda: En el caso de que σ1 y/o σ2 sean desconocidas, pero n1 ≥ 30 y n2 ≥ 30, podemos considerar las aproximaciones: n1 n2 σ1 ≈ σɵ n1 −1 = σn1 y σ2 ≈ σɵ n2 −1 = σn n1 − 1 n2 − 1 2 Ejemplo: Dos fábricas A y B empaquetan bombones en cajas. Los pesos de las cajas de A se distribuyen según una N (µ1, 15) y los pesos de B según una N (µ2, 10). En una muestra de 18 cajas de A se ha observado un peso medio de 256 g, y en una muestra de 20 cajas de B, un peso medio de 245 g. Halla el intervalo de confianza para la diferencia de medias, con un nivel de confianza del 92 %. Los datos del enunciado son: 1 – α = 0,92 ; x1 = 256 ; x2 = 245 ; σ1 = 15 ; σ2 = 10 ; n1 = 18 ; n2 = 20 17 / 25 Estadística Aplicada Tema 7 A partir de las tablas de la normal tipificada, deducimos que para un nivel de confianza 1 – α = 0,92 el valor crítico zα/2 = 1,76. Por lo que el intervalo de confianza para la diferencia de medias es: σ2 σ 2 σ2 σ 2 x1 − x2 − zα / 2 1 + 2 , x1 − x2 + zα / 2 1 + 2 = n1 n2 n1 n2 152 102 152 102 + , 256 − 245 + 1, 76 + 256 − 245 − 1, 76 = (3,637; 18,363) 18 20 18 20 Ejercicios 25: Una muestra de 50 bombillas de la marca A dio una vida media de 1500 h y una desviación típica de 100 h. Una muestra de 65 bombillas de la marca B dio una vida media de 1400 h y una desviación típica de 150 h. Halla el intervalo de confianza para la diferencia de medias de ambas marcas, con un nivel de significación del 6 %. Si ambas marcas venden las bombillas al mismo precio, ¿cuáles conviene comprar? ¿Por qué? Solución: (55,45; 144,55). Las de la marca A. Ejercicios 26: Se desea comprobar la eficacia de dos tipos de somnífero en pacientes con insomnio. El somnífero A dio, en una muestra de 60 pacientes, una media de 7,15 h de sueño, con una desviación típica de 0,65 h. El somnífero B dio, en una muestra de 80 pacientes, una media de 6,85 h de sueño, con una desviación típica de 1,15 h. Halla el intervalo de confianza para la diferencia de medias, con un nivel de significación del 5 %. Solución: (–0,003; 0,603) 8. ERROR DE ESTIMACIÓN Y TAMAÑO MUESTRAL Al iniciar la unidad vimos diferentes maneras de seleccionar una muestra para que fuera representativa de la población. Otro problema que se ha de resolver a la hora de elegir una muestra es el de determinar su tamaño n. Cabe esperar que la fiabilidad de las estimaciones sea mayor cuanto más grande sea la muestra, pero condicionantes económicos, operativos, de tiempo, ... aconsejan no trabajar con muestras muy grandes. El tamaño de la muestra se elige en función del error máximo que queramos asumir en las estimaciones que hagamos a partir de ella. Supongamos, por ejemplo, que deseamos aproximar el parámetro poblacional λ utilizando el estimador S. Para tener una medida de la fiabilidad de tal estimación, consideramos el intervalo de confianza para el parámetro con un nivel de confianza 1 – α, Iα( λɵ ). Al ser Iα( λɵ ) = ( λɵ – zα/2 · σS, λɵ + zα/2 · σS), y puesto que P (λ ∈ Iα( λɵ )) = 1 – α, podemos asegurar con probabilidad 1 – α que: | λ – λɵ | ≤ zα/2 · σS Luego es posible afirmar que el error máximo, E, que cometeremos aproximando λ por λɵ es: E = zα/2 · σS 18 / 25 Estadística Aplicada Tema 7 Observa que zα/2 está predeterminado, pero σS depende de n, con lo que podemos hacer que el error aumente o disminuya según el tamaño n de la muestra. En el caso en que estemos estimando una media poblacional, el error vendrá dado por: E = zα/2 σ n Con un nivel de confianza del (1 – α) admitimos que la diferencia entre la estimación para la media y su valor real es menor que E, el error máximo admisible. El tamaño de la muestra depende del nivel de confianza que se desee para los resultados y de la amplitud del intervalo de confianza, es decir, del error máximo que se esté dispuesto a admitir. Fijados estos, 1 – α y E, podemos calcular el tamaño mínimo de la muestra que emplearemos: σ n = zα / 2 E 2 De la expresión del tamaño de la muestra, se deduce muy fácilmente, que deberá ser mayor cuanto mayor sea: a) El nivel de confianza asignado. b) El grado de variabilidad de los datos originales. Por el contrario, cuanto mayor sea el tamaño de la muestra, menor será el error de la estimación. En el caso en que estemos estimando una proporción poblacional, el error vendrá dado por: E = zα / 2 p(1 − p) n Con un nivel de confianza del (1 – α) admitimos que la diferencia entre la estimación para la proporción a partir de la muestra y su valor real es menor que E, el error máximo admisible. El tamaño de la muestra depende del nivel de confianza que se desee para los resultados y de la amplitud del intervalo de confianza, es decir del error máximo que se esté dispuesto a admitir. Fijados estos, 1 – α y E, podemos calcular el tamaño mínimo de la muestra que emplearemos: 2 z n = α / 2 p (1 − p ) E Nota: Si no disponemos de información sobre p , podemos suponer que p = 0,5, ya que este valor corresponde al caso de máxima varianza. Ejemplo: Para conocer el cociente intelectual de los estudiantes de una universidad, ¿de qué tamaño conviene tomar la muestra para que, con una confianza del 98 %, la media muestral y la poblacional no difieran en más de 3 puntos? Se sabe que la desviación típica poblacional es de 15 puntos. Los datos que aparecen en el enunciado son: 1 – α = 0,98 ; σ = 15 19 / 25 ; E=3 Estadística Aplicada Tema 7 A partir de las tablas de la normal tipificada, se tiene que zα/2 = 2,33. Sustituyendo en la fórmula que nos da el error máximo, se obtiene: E = zα/2 σ n ⇒ 3 = 2,33 · 15 n ⇒ n = 2, 33·15 = 11,65 3 ⇒ n = 135,72 Como n ha de ser entero, se toma n = 136 (aproximación por exceso del valor de n obtenido, para que el error sea algo menor que el pedido, y no algo mayor). Por tanto, la muestra debe ser, por lo menos, de 136 estudiantes. Ejemplo: En el Juzgado de cierta ciudad se presentaron en el año 2005 un total de 5500 denuncias. Se seleccionó una muestra aleatoria de un 5 % de ellas. Entre las denuncias seleccionadas se determinó que 55 habían sido producidas por violencia doméstica. Determinar, justificando la respuesta: a) La estimación puntual que podríamos dar para el porcentaje de denuncias por violencia doméstica en esa ciudad en el año 2005. b) El error máximo que cometeríamos con dicha estimación puntual con un nivel de confianza del 99 %. a) El tamaño muestral fue de 5500 · 0,05 = 275 denuncias. De ellas, 55 habían sido producidas por violencia doméstica, luego la proporción de denuncias por violencia doméstica fue: 55 = 0,20 275 Esto es, el 20 %. p(1 − p) b) El error admitido E, viene dado por E = zα / 2 , siendo: p = 20, (1 − p ) = 0,80, n = 275 n y zα/2 el valor de la variable normal correspondiente a una confianza 1 − α = 0,99 (zα/2 = 2,58). Por tanto: 0, 20·0,80 E = 2,58 · = 2,58 · 0,0241 = 0,062 275 Se puede cometer un error máximo del 6,2 %. Esto es, el porcentaje de denuncias por violencia doméstica pertenece al intervalo (20 − 6,2, 20 + 6,2) = (13,8; 26,2), es decir, estará entre el 13,8 % y el 26,2 %. Ejercicios 27: ¿Qué error máximo admisible cometemos si como intervalo de confianza damos el intervalo (9,6; 10,3)? Solución: 0,35 Ejercicios 28: Supongamos que queremos estudiar la producción media de leche al día de un determinado tipo de vacas con un error menor que 0,5 litros y un nivel de confianza del 0,95 %. Si de estudios anteriores sabemos que la desviación típica es de 1,5 litros, ¿qué tamaño de muestra debemos tomar? Solución: n = 35 Ejercicios 29: Queremos determinar el porcentaje de estudiantes que necesitan gafas. De un estudio realizado hace tres años sabemos que el 65 % de ellos usaban gafas. a) ¿Qué tamaño de muestra debemos coger para cometer un error máximo del 5 % con un nivel de riesgo del 5 %? b) Si no tenemos información previa, ¿qué tamaño de muestra debemos tomar? Solución: a) n = 350; n = 385 20 / 25 Estadística Aplicada Tema 7 EJERCICIOS 1. Un mayorista de alimentos, quiere enviar muestras de sus productos, a una muestra de supermercados. Elige de las 5 grandes cadenas de supermercados, una muestra de cada, y manda sus productos para ponerlos a prueba. ¿Qué tipo de muestreo está utilizando? 2. Con el objetivo de controlar la calidad de sus productos, la fábrica de conservas “PEZ” ha decidido seleccionar parte de su producción para un análisis detallado. La producción diaria es de 6000 latas de las que el 80 % son de tamaño normal y el 20 % restante corresponde a la lata “familiar”. Sabiendo que el tamaño muestral es n = 30, justificar cuántas latas de cada tipo “deberían” estudiarse. Solución: La muestra debe estar formada por 24 latas de tamaño normal y 6 latas de tamaño familiar. 3. Una variable aleatoria tiene media µ = 30 y desviación típica σ = 3,5. Se eligen al azar muestras de tamaño n. ¿Qué se puede decir de la distribución de las medias muestrales es los siguientes casos? a) n = 20 b) n = 40 4. Solución: a) No se puede decir nada pues n < 30 y no se sabe si la población de partida es normal. Por tanto no se puede aplicar el teorema central del límite. B) N (30; 0,5534) 5. Una máquina fabrica bombillas que tienen una duración media de 700 horas y una desviación típica de 150 horas. ¿Cuál es la probabilidad de que la media de duración en una muestra de 100 bombillas sea menor o igual a 650 horas? Solución: 0,0004 6. Una población de un tipo de plantas tiene una talla media de 15 cm y desviación típica de 2,5 cm. Se toma al azar una muestra de 45 plantas. ¿Cuál es la probabilidad de que la media de las tallas de la muestra sea superior a 12,5 cm? Solución: 1 7. Una fábrica produce piezas con una longitud media de 10 cm y una desviación típica de 1 cm. a) ¿Cuál es la probabilidad de que la longitud media en una muestra de 50 piezas sea superior a 10,5 cm? b) Si se toman 25 muestras de 50 piezas cada una, ¿en cuantas cabe esperar que la longitud media esté comprendida entre 9,8 cm y 10,3 cm? Solución: a) 0,0002; b) 23 8. El 5 % de los pasteles que hace un pastelero tiene exceso de peso. Se toma una muestra de 45 pasteles. a) ¿Cuál es la distribución que sigue la proporción de pasteles con exceso de peso en la muestra? b) Halla la probabilidad de que en la muestra existan al menos cuatro pasteles con exceso de peso. Solución: a) N (0,05; 0,0325); b) 0,1093 9. En la elección para formar parte del consejo escolar, un alumno ha recibido el 50 % de los votos favorables. Si se elige una muestra de 40 alumnos que han votado. a) ¿Cuál es la distribución que sigue la proporción de votantes que han votado? b) Halla la probabilidad de que más del 40 % de la muestra le votasen. Solución: a) N (0,5; 0,079); b) 0,8980 21 / 25 Estadística Aplicada Tema 7 10. El sueldo medio en cierta provincia es de 1200 euros, con una desviación típica de 400. Calcula la probabilidad de que la nómina mensual de los 200 trabajadores de una empresa de esa provincia supere los 250000 euros. Solución: 0,0384 11. Los paquetes recibidos en una oficina de correos tienen un peso medio de 20 kg con una desviación típica de 5 kg. Calcula la probabilidad de que el peso de 50 paquetes elegidos al azar supere el límite de seguridad del ascensor, que es de 1000 kg. Solución: 0,5 12. Las consultas de un médico de cabecera duran una media de 8 minutos, con una desviación típica de 2,3 minutos. Si una tarde tiene citados 32 pacientes, ¿cuál es la probabilidad de que los atienda en menos de 4 horas? Solución: 0,1093 13. Las estaturas, en centímetros, de los soldados de un regimiento es una normal N (173, 6). Las guardias están formadas por 12 soldados. Suponiendo que se eligen al azar, halla la probabilidad de que la suma de las estaturas de los soldados de una guardia sea menor de 21 metros. Solución: 0,8749 14. Se sabe que el peso X de la grasa corporal en adultos que no hacen ejercicio sigue una distribución con media de 24,3 kg y desviación típica de 2,4. En cambio, el peso Y de la grasa en adultos que hacen ejercicio regularmente se distribuye con una media de 20,1 kg y desviación típica de 1,7. Si se eligen en ambas poblaciones muestras aleatorias de 50 personas, ¿cuál es la probabilidad de que la diferencia de la grasa corporal medias sea mayor de 3 kg? Solución: 0,9981 15. Uno de los principales fabricantes de televisores compra piezas a dos compañías. Las piezas de la compañía A tienen una vida media de 7,2 años con una desviación típica de 0,8 años, mientras que las de la compañía B tienen una vida media de 6,7 años con una desviación típica de 0,7. Determina la probabilidad de que una muestra aleatoria de 34 piezas de la compañía A tenga una vida media de al menos un año más que la de una muestra aleatoria de 40 piezas de la compañía B. Solución: 0,0023 16. El peso de los bebés al nacer sigue una ley normal de media µ = 3200 gramos y desviación típica σ = 312. a) ¿Cuál es la probabilidad de que un niño pese más de 3,4 kg al nacer? b) Para una muestra de 169 niños, ¿cuál es la probabilidad de que el peso medio sea menor que 3150 gramos? c) Encuentra el intervalo donde se encuentra el 95 % de todos los pesos medios de las muestras de 169 recién nacidos. Solución: a) 0,2611; b) 0,0188; c) I = (3152,96, 3247,04) 17. En un país se selecciona aleatoriamente una muestra de 900 personas. A la salida de los colegios electorales se les preguntó si habían votado al partido político X y 289 contestaron que sí y el resto que no. Determinar un intervalo que nos dé el porcentaje de votos del partido X con un nivel de confianza del 95 %, explicando los pasos realizados para su obtención. Solución: I = (28,96; 35,04) 22 / 25 Estadística Aplicada Tema 7 18. Un estudio realizado sobre 144 usuarios de automóviles revela que la media anual de kilómetros recorridos es de 18000 km. Si el número de km. recorridos anualmente sigue una distribución normal con desviación típica de 2000 km. Calcula, con una probabilidad del 97 %, entre qué valores estará la media del número de km. recorridos anualmente por la población total de usuarios de automóviles. Interpreta el significado del intervalo obtenido. Solución: a) I = (17638,3; 18361,7) 19. Se ha obtenido que el intervalo de confianza correspondiente al 95 % de una variable es (6,66; 8,34). Calcule la media y el tamaño de la muestra que se ha estudiado para obtener el intervalo sabiendo que la desviación típica poblacional es igual a 3. Explica cada uno de los pasos realizados. Solución: x = 7,5 n = 49 20. Tomada al azar una muestra de 500 personas de una determinada comunidad, se encontró que 300 leían la prensa regularmente. Hallar, con una confianza del 90 %, un intervalo para estimar la proporción de lectores ente las personas de esa comunidad. Solución: I = (0,564; 0,636) 21. Para estimar, por medio de un intervalo de confianza, la proporción p de individuos miopes de una población, se ha tomado una muestra de 80 individuos con la que se ha obtenido un porcentaje de individuos miopes del 35 %. Determine, usando un nivel de confianza del 99 %, el correspondiente intervalo de confianza para la proporción de miopes de toda la población. Solución: I = (0,213; 0,488) 22. Tomada una muestra aleatoria de 300 personas mayores de edad de una gran ciudad, se obtuvo que 105 habían votado a un determinado partido X. Halle, con un nivel de confianza del 90 %, un intervalo de confianza que permita estimar la proporción de votantes del partido X en esa ciudad. Solución: I = (0,322; 0,376) 23. En una muestra aleatoria de 600 coches de una ciudad, 120 son de color blanco. Construya un intervalo de confianza de la proporción de coches de color blanco con un nivel de confianza del 98 %. Solución: I = (0,162; 0,238) 24. Se sabe que los pesos medios de los caballos de carreras se distribuyen normalmente, los de la cuadra A con una desviación típica de 45 kg, y los de la cuadra B con una desviación típica de 51 kg. Se desea estimar la diferencia de pesos medios de los caballos de ambas cuadras; para ello se elige una muestra de 50 caballos de la cuadra A y 38 caballos de la cuadra B. Se calculan los pesos medios muestrales y se obtiene xA = 490 kg y xB = 475 kg. Halla el intervalo de confianza para la diferencia de medias de pesos al nivel de confianza del 95 %. Solución: I = (–5,46; 35,46) 25. Halla el intervalo de confianza al nivel del 90 % para la diferencia de salarios medios de los trabajadores y las trabajadoras de una gran empresa: a) Cuando se ha elegido una muestra de 40 hombres y 35 mujeres, siendo el salario medio de los hombres 1051 euros, y el de las mujeres, 1009 euros, y las desviaciones típicas, de 90 y 78 euros, respectivamente. b) Suponiendo que no se conocen las desviaciones típicas poblacionales y se calculan las cuasivarianzas muestrales, que valen σ12 = 872 y σ22 = 762. Solución: a) I = (10,19; 73,81); b) I = (11,13; 72,87) 23 / 25 Estadística Aplicada Tema 7 26. Un fabricante de pilas alcalinas sabe que el tiempo de duración, en horas, de las pilas que fabrica sigue una distribución normal de media desconocida y varianza 3600. Con una muestra de su producción, elegida al azar, y un nivel de confianza del 95 % ha obtenido para la media el intervalo de confianza (372,6; 392,2). a) Calcula el valor que obtuvo para la media de la muestra y el tamaño muestral utilizado. b) ¿Cuál sería el error de su estimación, si hubiese utilizado una muestra de tamaño 225 y un nivel de confianza del 86,9 %? Solución: a) x = 382,4 ; n = 144; b) E = ± 6,04 27. El peso de los paquetes enviados por una determinada empresa de transportes se distribuye según una normal, con una desviación típica de 0,9 Kg. En un estudio realizado con una muestra aleatoria de 9 paquetes, se obtuvieron los siguientes pesos en kilos: 9,5 10 8,5 10,5 12,5 10,5 12,5 13 12 a) Halla un intervalo de confianza, al 90 %, para el peso medio de los paquetes enviados por esa empresa. b) Calcula el tamaño mínimo que debería tener una muestra, en el caso de admitir un error máximo de 0,3 Kg, con un nivel de confianza del 90 %. Solución: a) I = (10,23; 11,77); b) n mínimo = 25 28. En una población escolar se ha comprobado que la estatura sigue un modelo normal de probabilidad. A partir de una muestra de 81 escolares de dicha población se ha calculado una estatura media de 159 cm y una cuasivarianza de 169 cm2. Teniendo en cuenta esta información: Determinar el error máximo que cometeríamos, con una confianza del 99 %, si estimamos en 159 cm la estatura media en esa población escolar. Solución: E = ± 3,698 29. Se sabe que el gasto semanal (en euros) en ocio para los jóvenes de una cierta ciudad sigue una distribución normal con desviación típica σ conocida. a) Para una muestra aleatoria de 100 jóvenes de esa ciudad, el intervalo de confianza al 95 % para el gasto medio semanal µ es (27; 33). Hallar la correspondiente media muestral x y el valor de σ. b) ¿Qué número de jóvenes tendríamos que seleccionar al azar, como mínimo, para garantizar, con una confianza del 95 %, una estimación de dicho gasto medio con un error máximo no superior a 2 euros semanales? Solución: a) x = 30 ; σ = 15,3; b) n mínimo = 225 30. En un país se sabe que la altura de la población se distribuye según una normal cuya desviación típica es igual a 10 centímetros. a) Si dicha media fuera de 170 centímetros, calcular la probabilidad de que la media muestral, de una muestra de 64 personas, difiera menos de un centímetro de la media de la población. b) ¿Cuál es el tamaño muestral que se debe tomar para estimar la media de la altura de la población con un error menor de 2 centímetros y con un nivel de confianza del 95 %? Solución: a) P (169 < x < 171) = 0,5762; b) n mínimo = 97 31. La estatura de los miembros de una población se distribuye según una normal de media desconocida y desviación típica 9 cm. Con el fin de estimar la media se toma una muestra de 9 individuos de la población, obteniéndose para ellos una media aritmética igual a 170 cm. a) Calcula el intervalo de confianza al nivel del 95 % para la estatura media de la población. b) Calcula el tamaño muestral necesario para estimar la media de la población con una precisión de ± 5 cm y un nivel de confianza del 99 %. Solución: a) I = (164,12; 175,88); b) n mínimo = 22 24 / 25 Estadística Aplicada Tema 7 32. El precio de ciertos electrodomésticos puede considerarse una variable aleatoria con distribución normal de desviación típica 100 euros. Los precios en euros correspondientes a una muestra de 9 de estos electrodomésticos son 255 85 120 290 80 80 275 290 135 a) Construir un intervalo de confianza al 98 % para la media poblacional. b) Hallar el tamaño mínimo que debe tener la muestra, para que con un nivel de confianza del 99 %, el error de estimación del precio no supere los 50 euros. Solución: a) I = (101,21; 256,54); b) n mínimo = 27 33. Con los datos del ejercicio anterior, se pretende repetir la experiencia para conseguir que la cota del error que se comete al estimar, por un intervalo de confianza, la proporción de alumnos que hablan inglés en esa Universidad no sea superior a 0,05, con un nivel de confianza del 99 %. ¿Cuántos alumnos tendríamos que tomar, como mínimo, en la muestra? Solución: n = 659 34. Se desea estimar, por medio de un intervalo de confianza, la proporción p de individuos daltónicos de una población a través del porcentaje observado en una muestra aleatoria de individuos de tamaño n. Si el porcentaje de individuos daltónicos en una muestra aleatoria es igual al 30 %, calcule el valor mínimo de n para que, con un nivel de confianza del 95 %, el error que se cometa en la estimación sea inferior a 0,031. Solución: n = 840 35. Para conocer la audiencia de uno de sus programas (proporción de televidentes que lo prefieren), una cadena de TV ha encuestado a 1000 personas elegidas al azar obteniendo una proporción muestral del 33 % de personas favorables a ese programa. Calcule el error máximo de estimación, por medio de un intervalo de confianza, con un nivel del 92 %. Solución: E = 0,026 36. Se va a tomar una muestra aleatoria de 600 recién nacidos en este año en una ciudad para estimar la proporción de varones entre los recién nacidos de esa ciudad, mediante un intervalo de confianza con un nivel del 95 %. ¿Cuál será el error de estimación a ese nivel si se observan 234 varones en la muestra? Solución: E = 0,039 37. Una muestra aleatoria de automóviles tomada en una zona turística ha permitido obtener un intervalo de confianza, al nivel del 95 %, para estimar de la proporción de matrículas extranjeras de esa zona, siendo sus extremos 0,232 y 0,368. a) Determine el valor de la proporción estimada a través de esa muestra y un el error máximo de estimación a este nivel de confianza. b) Utilizando el mismo nivel de confianza, ¿cuál sería el error máximo admisible, si esa misma proporción se hubiera observado en una muestra de 696 matrículas? Solución: a) p̂ = 0,3 y E = 0,068. b) E = 0,034. 38. Se va a tomar una muestra aleatoria de 600 recién nacidos en este año en una ciudad para estimar la proporción de varones entre los recién nacidos de esa ciudad, mediante un intervalo de confianza con un nivel del 95 %. ¿Con qué proporción estimada será máxima la amplitud de ese intervalo? ¿Cuál es la amplitud máxima? Solución: p̂ = 0,5. Amplitud máxima = 2E = 0,08 39. Se desea estimar la proporción de adultos que leen un determinado diario local por medio de un intervalo de confianza. Obtenga el tamaño mínimo de la muestra que garantice, aún en la situación más desfavorable, un error de la estimación inferior a 0.03, con un nivel de confianza del 95 %. Solución: Caso más desfavorable para p̂ = 0,5. n = 1068 25 / 25