UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO COLEGIO DE CIENCIAS Y HUMANIDADES ÁREA DE MATEMÁTICAS 1.2 1 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30 GUÍA PARA PREPARAR EL EXAMEN EXTRAORDINARIO DE ESTADÍSTICA Y PROBABILIDAD II AUTORES ÁNGEL SANDOVAL LEMUS BLANCA CECILIA CRUZ SALCEDO CARLOS ALBERTO GARCÍA ÁLVAREZ CIRO PLATA MONROY HÉCTOR GABRIEL RIVERA VARGAS HUGO HERNÁNDEZ TERVETAHN MAYO DEL 2006 UNIDAD I. DISTRIBUCIONES DE PROBABILIDAD Variable aleatoria Es una función definida del espacio de resultados Ω de un fenómeno aleatorio, a los números reales y se expresa como sigue: X :Ω dominio de X R rango de X Esta función no necesariamente es una función de variable real, debido a que los elementos de Ω no necesariamente son números, pueden ser objetos como: letras, símbolos o figuras,, Ω = {águila, sol} o por ejemplo, para la moneda equivalentemente Ω = {a, s} . Clasificación de variables aleatorias Si una variable aleatoria X toma valores enteros, se llama variable aleatoria discreta ce que Ejemplo: Se lanzan 3 monedas, observándose el número de soles. La variable aleatoria es el número de soles y puede tomar valores entre 0 y 3. Ejemplo: Se escogen tres artículos de un proceso de manufactura y se desea saber el número de artículos defectuosos que se escogieron, ¿que valores puede tomar la variable aleatoria X? Solución: 0, 1,2 o 3 artículos defectuosos. La variable aleatoria X es discreta y su distribución de probabilidad es la siguiente: Ejemplo: De un grupo de 50 alumnos (23 mujeres y 27 hombres) de edades que varían entre 17 y 20 años, se escoge un alumno al azar observándose el género al cuál pertenece. ¿Que valores puede tomar la variable aleatoria X? Solución: Masculino o Femenino. La variable aleatoria X es una variable aleatoria discreta. Ejemplo: Un profesor afirmó que las calificaciones de sus alumnos al final del semestre serían 5, 6.5, 7.8 ó 10. Si al final del curso se selecciona a un alumno de dicho profesor observándose su calificación final, ¿Que valores puede tomar la variable aleatoria X? Solución: 5, 6.5, 7.8 ó 10. La variable aleatoria X es una variable aleatoria discreta. Ejemplo: En una fábrica de chocolates se seleccionaron 100 de sus productos para sumar sus respectivos pesos en gramos y obtener un promedio y con esto llevar un cierto control de calidad. ¿Cuáles son los posibles valores de la variable aleatoria de interés? Solución: Los posibles valores de la variable aleatoria X son todas las x>0. Ejercicios de distribuciones de probabilidad de variable aleatoria discreta 1. Verifica si las siguientes expresiones son funciones de probabilidad. En caso negativo, conviértela en función de probabilidad. Forma la distribución de probabilidades y bosqueja un histograma. 2 a) P ( x) = 5− x 10 para x = 1, 2, 3, 4. b) Q ( x) = x² − 1 50 para x = 2, 3, 4, 5. c) S ( x) = 6− x−7 36 para x = 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12. 2. Encuentra la distribución de probabilidad para el número de discos de jazz, cuando se eligen al azar cuatro discos de una colección que consta de cinco discos de jazz, dos discos de rock y tres discos de polkas. Expresa los resultados a través de una fórmula. 3. Encuentre el valor de k para que la siguiente tabla represente una distribución de probabilidad de la v. a. d. X X 1 3 5 P(X) k 2k 0.5k Solución. k = 2 / 7 4. Se tiene una urna con 11 papelitos y se selecciona 1 papelito de manera aleatoria: Se define la variable aleatoria X de la siguiente manera: ⎧ multiplicar por 2 al número obtenido en el papelito si es impar y primo ⎪ X = ⎨restar 4 al número obtenido en el papelito si es solamente impar ⎪multiplicar por 1.5 al número obtenido en el papelito en cualquier otro caso ⎩ Obtenga la distribución de probabilidad de la variable aleatoria X. Solución: X -3 3 5 6 9 10 12 14 15 22 P(X) 1 11 1 11 1 11 2 11 1 11 1 11 1 11 1 11 1 11 1 11 5. Se selecciona de manera aleatoria una pelota de una urna que contiene 1 pelota verde con el número 2, 1 pelota azul con el número 2 y una pelota roja con el número 3. Se define a la variable aleatoria X como: sumar 2 al número de la pelota seleccionada si ésta es verde y sino es verde multiplicar por 2 al número de la pelota seleccionada. Obtenga la distribución de probabilidad de la variable aleatoria X. 3 Solución: X P(X) 4 2/3 6 1/3 Ejercicios de esperanza matemática y varianza de una variable aleatoria discreta. 1. Se tiene la siguiente distribución de probabilidad: X 1 3 P(X) 0.25 0.25 5 0.50 Obtenga la esperanza matemática de la variable aleatoria X y su desviación estándar Recuerde que la esperanza matemática es: μ = E(X) = ∑ X i P(X i ) y que la desviación estándar es: σ = E(X 2 ) − μ 2 Por lo tanto: E (X) = (1)(0.25) + (3)(0.25) + (5)(0.5) = 0.25 + 0.75 + 2.5 = 3.5 σ = (12 )(0.25) + (3 2 )(0.25) + (5 2 )(0.5) − (3.5) 2 = 0.25 + 2.25 + 12.5 − 12.25 = 2.75 = 1.6583 Recuerde que la varianza en este caso sería igual a 2.75. 2. Un señor apuesta $5 pesos al número 3 al lanzar un dado corriente, y pierde $2 en caso de no observar el número 3 en el dado, ¿cuál es el valor esperado del juego? ¿ Y cuál es la varianza de la v. a. X? Solución. Construya la distribución de probabilidad de la v. a. X. Y obtenga que E(X) = -5/6 y σ 2 = 245 / 36 4 3. Se tiene la siguiente distribución de probabilidad X P(X) 5 7.5 10 0.40 0.10 0.50 Obtenga E ( X ) y σ . Solución. E (X ) = 7.75 y σ = 5.5625 4. Al invertir en unas acciones financieras, una persona puede lograr una ganancia de $4000 en un año con probabilidad de 0.3 o bien tener una pérdida de $1000 con una probabilidad de 0.7. ¿Cuál sería la ganancia esperada de esta persona? Solución: $500 5. A un trabajador de un establecimiento de lavado de automóviles se le paga según el número de autos que entran al servicio. Suponga que las probabilidades son 1/12, 1/12, 1/4, 1/4, 1/6 y 1/6, respectivamente, de que el trabajador reciba $7, $9, $11, $13, $15 ó $17 entre las 16:00 y las 17:00 horas, en cualquier viernes de la semana. Determina las ganancias del trabajador para este periodo en particular. Solución: $12.67. 6. Un trabajador piensa que las probabilidades de conseguir aumento salarial son: 0.40, 0.30, 0.20 y 0.10 de $1.50 por hora, un aumento de $1.00 por hora, un aumento de 50 centavos por hora o ningún aumento, respectivamente. ¿Cuál es su aumento esperado? Solución: $1.00 Problemas de Distribución Binomial 1.- La proporción de estudiantes que reciben la calificación C es de 0.7, se toma una muestra aleatoria de 10 estudiantes. ¿Cuál es la probabilidad de que haya 6 estudiantes con esa calificación en la muestra? Solución: Se define al éxito como la de observar C de calificación con p = 0.7 Se realizarán 10 ensayos Bernoulli, por lo tanto n = 10 Utilizando la fórmula de la distribución binomial tenemos: P( X = x) = C (n, x)(0.7) x (0.3) n − x P( X = 6) = C (10,6)(0.7) 6 (0.3)10−6 P( X = 6) = 210(0.7) 6 (0.3) 4 P( X = 6) = 0.2001 2. Margarito es un jugador de básquetbol que acierta el 60 % de sus tiros libres, ¿Cuál es la probabilidad de que acierte 2 de sus 3 próximos lanzamientos? 5 Solución: Se define al éxito como acertar en el lanzamiento con p = 0.60 Se observarán los próximos 3 lanzamientos, por lo tanto n = 3 Utilizando la fórmula de la distribución binomial tenemos: P( X = x) = C (n, x)(0.6) x (0.4) n − x P( X = 2) = C (3,2)(0.6) 2 (0.4) 3− 2 P( X = 2) = 3(0.6) 2 (0.4) P( X = 2) = 0.432 3. Se sabe que el 45% de los nacimientos en México son niñas, Si se observan los próximos 6 nacimientos, ¿Cuál es la probabilidad de que ... a) por lo menos 4 sean varones? b) por lo menos 2 sean mujeres? Solución: Se define al éxito como la de observar niña en un nacimiento con p = 0.45 Se observarán los próximos 6 nacimientos, por lo tanto n = 6 a) P( X ≤ 3) = P( X = 0) + P( X = 1) + P( X = 2) + P( X = 3) P( X = 0) = C (6,0)(0.45) 0 (0.55) 6−0 = ______ P( X = 1) = ______ P( X = 2) = 0.27795 P( X = 3) = ______ Usted realizará las operaciones necesarias para llegar al resultado de 0.74474 b) 6 P ( X ≥ 2) = ? Sabemos que : P(X ≥ 2) + P(X < 2) = 1 Entonces : P ( X ≥ 2) = = 1 − P ( X < 2) = 1 − [P(X = 0) + P(X = 1)] = 1 − [0.02768 + ________ ] = 0.9114 2.- Se afirma que un procedimiento terapéutico nuevo es exitoso en el 80% de las veces. Si la terapia se realiza 5 veces y si suponemos que los resultados son independientes entre sí, ¿Cuál es la probabilidad de que: a) las 5 terapias son exitosas? Sol. 0.3277 b) Que al menos tres sean exitosas? Sol. 0.94208 3.- La probabilidad de que un paciente se recupere de una enfermedad mental es de 0.4. Si se sabe que 15 personas han presentado dicha enfermedad, ¿Cuál es la probabilidad de que: a) se recuperen exactamente 5? Sol. 0.1859 b) ninguna se recupere? Sol. 0.00047 4.- La tasa de desempleo en cierta ciudad es de 8.7%. Se selecciona una muestra de 10 ciudadanos. ¿Cuál es la probabilidad de que la muestra contenga: a) 3 o menos desempleados? Sol. 0.9922 b) a ningún desempleado? Sol. 0.4024 5.- La proporción de fumadores en una ciudad es del 30%. Se toma una muestra aleatoria de tamaño 11. ¿Cuál es la probabilidad de que la muestra : a) no contenga fumadores? Sol. 0.0198 b) contenga exactamente 10? Sol. 0.00004547 6.-Considere que el 55% de los matrimonios que se quieren divorciar cambian de opinión después de seguir ciertas terapias con un determinado psicólogo. Si 10 parejas que se quieren divorciar ven a dicho psicólogo. ¿Cuál es la probabilidad de que cambien de opinión… a) 4 de ellas? Sol. 0.1596 b) menos de 2? Sol. 0.0045 c) por lo menos 2? Sol. 0.9955 Obtención de áreas bajo la curva normal estándar Ejemplos. Obtener el área bajo la curva normal estándar... 7 a) a la derecha de z = 1.04 P (Z > 1.04) = 0.1492 b) a la derecha de z = -0.96 P (Z>-0.96) = 1- 0.1685= 0.8315 c) a la izquierda de z = 2.46 P (Z<2.49) = 1-0.0069= 0.9931 d) a la izquierda de z = - 1.14 P (Z<-1.14) = 0.1271 e) entre z = 1 y z = 2.23 8 P (1 < Z < 2.23) = 0.1587-0.0129= 0.1458 f) entre z = -0.51 y z = 1.67 P (-0.51 < Z < 1.67) = 1 – 0.3050 – 0.0475 = 0.6475 g) entre z = -1.14 y z = -0.52 P(-1.14 < Z < -0.52) = 0.3015- 0.1271 = 0.1744 h) entre z = 0 y z = 2.45 P (0 < Z < 2.45) = 0.5 - .0071= 0.4929 9 Obtén las siguientes áreas bajo la curva normal estándar, recordando que: • el área total bajo la curva es igual a 1 • existe simetría con respecto a la media ( por lo tanto 0.5 del lado izquierdo y 0.5 del lado derecho ) Recuerda que se utilizará la tabla que proporciona el área de la cola, esto es: Dibuje y obtenga el área bajo la curva normal estándar... a) a la derecha de z = 2.11 Solución: 0.0174 b) a la izquierda de z = 1.2 Solución: 0.8849 10 c) a la derecha de z = -1.07 Solución: 0.8577 d) a la izquierda de z = -0.23 Solución: 0.4090 e) entre z = -1 y z = 1 Solución: 0.6826 f) entre z =-2.29 y z = -1.19 Solución: 0.106 g) entre z = 0 y z = 0.49 11 Solución: 0.1879 h) entre z = 1 y z = 2.13 Solución: 0.1421 Obtenga el correspondiente valor de z en cada una de las siguientes gráficas: a) b) c) 12 d) e) f) g) h) 13 i) i) j) Problemas de Distribución Normal 1.- Las puntuaciones en una prueba nacional de aprovechamiento tuvieron una distribución normal con media de 540 y desviación estándar de 110. a) Si la puntuación que obtuvo usted fue de 680. ¿ Que porcentaje de aquellos que tomaron la prueba obtuvieron mayor calificación que usted? Solución: 14 μ = 540 σ = 110 El área que representa la probabilidad deseada es: Estandarizando: z= X−μ σ = 680 − 540 = 1.27 110 Por lo tanto, buscando en tablas el área correspondiente a la curva normal estándar es: b) ¿Qué porcentaje obtuvo una puntuación entre 500 y 600? Solución: P (500 ≤ X ≤ 600) = ? El área que representa la probabilidad deseada es: Estandarizando: X−μ 500 − 540 = −0.36 σ 110 X − μ 600 − 540 Z= = = 0.55 110 σ Z= = 15 Una vez estandarizados los valores y utilizando las tablas, obtenemos: Entonces, el área deseada es: P (500 ≤ X ≤ 600) = 1 - 0.3594 - 0.2912 = 0.3494 b) ¿Qué porcentaje obtuvo una puntuación menor a los 455? Solución: Se desea saber la P( X < 455) = ? El área que se muestra a continuación es el área que se requiere encontrar: Estandarizando tenemos la siguiente gráfica: Y por lo tanto el área deseada es 0.2206. d) ¿Qué porcentaje obtuvo una puntuación entre 455 y 500? En este último ejemplo, dejamos algunos espacios en blanco para que el alumno ejercite llenándolos con el valor correspondiente. Deseamos encontrar el valor de: P (500 ≤ X ≤ 600 ) El área que representa dicha probabilidad es: 16 Estandarizando: X−μ ___ − 540 = −0.36 ___ σ X − μ 455 − ___ = = _____ Z= 110 σ Z= = = 0.1388. Por lo tanto, el área deseada es 0.3594 A continuación se enlistan algunos ejercicios para que resuelva el alumno y compare sus resultados con los que se proporcionan. 1.- Se sabe que los C. I. de cierta población rural de México se distribuye normalmente con media de 106 y varianza de 144. a) Si se quiere seleccionar aleatoriamente a una persona de esta población, ¿ Cuál es la probabilidad de que la persona elegida tenga un C. I. entre 100 y 112? Solución. 0.383 b) Se sabe que los llamados “ genios “ obtienen las calificaciones más altas y que son el 0.5% de la población , ¿ Cuál es el C. I. mínimo para que una persona sea considerada como “genio” ? Más adelante se proporciona un ejercicio similar para que usted se base en él y obtenga la solución. 136.96 2.- Supóngase que las edades de los trabajadores de una gran industria están distribuidas normalmente con una media de 50 años y una desviación estándar de 5 años. a) ¿Cuál es el porcentaje de trabajadores cuyas edades están entre 50 y 52.5 años? Solución. 19.15%. b) ¿Cuál es la probabilidad de que un trabajador cualquiera no sea mayor de 45 años? Solución. 0.1587 c) ¿Cuál es la probabilidad de que un trabajador cualquiera tenga entre 41 58 años? Solución. 0.9093 17 d) Si el 20% de los trabajadores son los más jóvenes, ¿ a que edad se les considera de esta manera? Solución. Se dará el procedimiento parcial para que usted obtenga la solución que se proporciona: Buscamos en tablas un área que se aproxime a 0.20 ( no busque z = 0.20), usted se dará cuenta que el valor que más se aproxima es el área con valor de 0.2005 que corresponde al área a la derecha de Z = 0.84, pero como el área que representa a los más jóvenes esta del lado izquierdo de la media ( como se trata de la normal estándar el valor de la media es 0) entonces este valor es negativo. Continúe con el procedimiento para llegar a la solución de 45.8 años, que equivale a 45 años 9 meses y 22 días. e) Si usted es trabajador de esa industria y su edad es de 47 años con 9 meses, ¿ que porcentaje de los trabajadores es menor que usted? Solución. 32.64% 3.- En el CCH Naucalpan se sabe que la media de los promedios de calificaciones de los alumnos es de 7.32 con una desviación estándar de 2.5; si seleccionamos a un estudiante al azar, ¿Cuál es la probabilidad de que este estudiante tenga un promedio... a) mayor al 8? Solución 0.3936 b) Entre 6 y 7? Solución 0.1502 c) Se sabe que el 20% de los alumnos tiene un buen promedio, ¿cuál es el promedio mínimo para considerarse como bueno? Solución 9.42 UNIDAD II. DISTRIBUCIONES MUESTRALES CONCEPTO DE POBLACIÓN: • Es el conjunto completo de individuos u objetos que interesa a la persona que selecciona la muestra. • Es la colección de toda la posible información que caracteriza a un fenómeno. La población de interés debe definirse cuidadosamente. CONCEPTO DE MUESTRA: 18 Es un subconjunto seleccionado de una población. CONCEPTO DE PARÁMETRO: • Un parámetro es una caracterización numérica de la distribución de manera que describe, parcial o completamente, la función de densidad de probabilidad de la característica de interés. • Un parámetro es una característica numérica de una población, es un valor que describe a toda una población. CONCEPTO DE ESTADÍSTICO: • Un estadístico es cualquier función de las variables aleatorias que se observan en la muestra de manera que esta función no contiene cantidades desconocidas. • Un estadístico es una característica numérica de una muestra. CONCEPTO DE MUESTRA ALEATORIA: Muestra que se obtiene de manera que cada una de las muestras posibles de un tamaño fijo tenga la misma probabilidad de ser seleccionada. DISTRIBUCIÓN MUESTRAL Es una distribución de probabilidad donde la variable aleatoria es un estadístico. TEOREMA DE LÍMITE CENTRAL 1. Si la población que se muestreo está distribuida de manera normal, la distribución de los valores medios de la muestra estarán normalmente distribuidos respecto a todos los tamaños de muestra. 2. Si la población no es normal, la distribución de los valores medios de la muestra será aproximadamente normal respecto a un tamaño de muestra grande. 19 EJERCICIOS DE LA UNIDAD1. DISTRIBUCIONES MUESTRALES. 1. Considera el conjunto de los números enteros impares {1, 3, 5, 7, 9}. a) Haz una lista de todas las muestras de tamaño 2 que puedan ser seleccionadas de este conjunto (muestreo con reposición). Solución: (1,1), (3,1), (5,1), (7,1), (9,1) (1,3), (3,3), (5,3), (7,3), (9,3) (1,5), (3,5), (5,5), (7,5), (9,5) (1,7), (3,7), (5,7), (7,7), (9,7) (1,9), (3,9), (5,9), (7,9), (9,9) b) Construye la distribución de muestreo de las medias muestrales para muestras de tamaño 2 seleccionadas de este conjunto. Las población de medias maestrales es: 12345 23456 34567 45678 56789 Por lo tanto: x P( x ) 1 1 25 2 2 25 3 4 5 6 7 8 9 3 4 5 4 3 2 1 25 25 25 25 25 25 25 2. Considera el conjunto de siguientes números enteros pares {0, 2, 4, 6, }. a) Haz una lista de todas las muestras de tamaño 2 que puedan ser seleccionadas de este conjunto (muestreo con reposición). Solución. Basándote en el ejercicio anterior, completa el procedimiento. b) Construye la distribución de muestreo de las medias muestrales para muestras de tamaño 2 seleccionadas de este conjunto. 3. Utilizando como población los números enlistados en el directorio telefónico local, obtén aleatoriamente 20 muestras de tamaño 3. De cada número toma los dígitos cuarto, quinto y sexto (Por 20 ejemplo: del número 55976876 se tomará el 6, 8 y 7 como la muestra de tamaño 3, porque el primer 5 no se considera) a) Calcula la media de las 20 muestras. b) Traza un histograma que indique las 20 medias muestrales. 4. Cierta población tiene media y desviación estándar iguales a 500 y 30, respectivamente. Se seleccionan muchas muestras de tamaño 36 y se calculan las medias. a) ¿Qué valor es de esperar que tenga la media de todas esas medias muestrales? b) ¿Qué valor se esperaría para la desviación estándar de todas las medias muestrales? c) ¿Qué forma es de esperar que tenga la distribución de todas las medias muestrales? 5. Se va a seleccionar una muestra aleatoria de tamaño 36 de una población que tiene media μ = 50 y desviación estándar σ = 10. a) ¿Cuál es la probabilidad de que esta media muestral esté entre 45 y 55? Solución: P(45 ≤ x ≤ 55) = ? Es tan darizando: x−μ 45 − 50 = = −3 σ / n 10 / 36 x−μ 55 − 50 z= = =3 σ / n 10 / 36 z= P (45 ≤ x ≤ 55) = 1 − 0.00135 − 0.00135 = 0.9973 b) ¿Cuál es la probabilidad de que la media muestral tenga un valor mayor que 48? 21 Solución: P( x > 48) = ? Estandarizando: z= x−μ 48 − 50 = = −1.2 σ / n 10 / 36 P ( x > 48) = 1 − 0.1151 = 0.8849 c) ¿Cuál es la probabilidad de que la media muestral se aleje de la media por lo menos 3 unidades (es decir, ± 3 unidades) Solución: P( x − μ ≥ 3) = ? Estandarizando: 22 z= 53 − 50 = 1.8 10 / 36 P ( x − μ ≥ 3) = P ( x ≤ 47 ) + ( x ≥ 53 ) = 0.0359 + 0.0359 = 0.0718 6. Considera la población aproximadamente normal de las estaturas de los estudiantes varones del CCH-N. Supón que las alturas individuales tienen media y desviación estándar iguales a 1.62 cm. y 0.30 cm., respectivamente. Se obtiene una muestra de 16 estaturas. Evalúa: a) la media de esta distribución de muestreo. ( la probabilidad de que esta media sea inferior a 1.68) Solución. La gráfica que representa la situación es la siguiente: P( x < 1.68) = ? Estandarizando: z= x − μ 1.62 − 1.68 = = 0.8 σ / n 0.30 / 16 Entonces, la curva normal estándar muestra que: La P( x < 1.68) = 1 − 0.2119 = 0.7881 b) el error estándar de la media.( la probabilidad de que esta media este entre 1.65 y 1.70) Solución: 23 P (1.65 ≤ x ≤ 1.70) = ? 7. Se aceptará un cargamento de barras de acero si la resistencia media a la ruptura de una muestra aleatoria de 10 barras es mayor que 250 libras por pulgada cuadrada. En lo pasado, la resistencia a la ruptura de tales barras ha tenido media y varianza iguales a 235 y 400, respectivamente. a) Suponiendo que la resistencia a la ruptura está distribuida normalmente, ¿cuál es la probabilidad de que una barra seleccionada aleatoriamente tenga una resistencia dentro del intervalo de 245 a 255? b) ¿Cuál es la probabilidad de que el cargamento sea aceptado? 8. Se sabe que la proporción de estudiantes del sexo femenino del plantel Naucalpan es de 68%. La directora del plantel seleccionará a 49 estudiantes en forma aleatoria. a) ¿Cuál es la probabilidad de que la selección tenga una proporción de mujeres mayor al 60 %? Solución. p = 0.68 n = 49 Estandarizando: Z= p̂ − p 0.60 − 0.68 = = −1.2 p(1 − p) (0.68)(0.32) n 49 Entonces: 24 Por lo tanto, P (p̂ > 0.60) = 1 − 0.1151 = 0.8849 b) ¿Cuál es la probabilidad de que dicha selección contenga menos de 20 mujeres? Solución. 0.0000317 c) ¿Cuál es la probabilidad de que dicha selección contenga más de 20 mujeres? Solución. 0.9999683 9. El porcentaje de estudiantes del CCH Naucalpan que deben de menos una materia es del 12%, Si se seleccionan a 100 estudiantes al azar, ¿Cuál es la probabilidad de que el porcentaje de alumnos que adeudan de menos alguna materia de esta selección a) sea mayor al 25%. Solución. 0.0000317 b) sea menor al 20%. Solución. 0.9931 10. PROFECO realizará un muestreo de 100 grabadoras a la empresa PANASOUND, esto para saber que porcentaje de grabadoras defectuosas produce. La empresa sabe que la proporción de grabadoras que produce es de únicamente el 2%, con esto información, ¿ que probabilidad hay de que la muestra contenga: a) más de 5% grabadoras defectuosas? Solución 0.0162 b) pro mucho 2 grabadoras defectuosas? Solución 0.5 c) más de 10 grabadoras defectuosas? Solución 0.000000287 UNIDAD III. INFERENCIA ESTADÍSTICA Introducción a la inferencia estadística La estadística se divide en dos grandes ramas: ESTADÍSTICA DESCRIPTIVA: Se encarga de recopilar, presentar y describir a los datos. 25 ESTADÍSTICA INFERENCIAL: Se encarga de estudiar los resultados obtenidos a partir de la descripción de una muestra. La inferencia estadística es una característica de una población obtenida a partir de una muestra. El grado de confiabilidad de una inferencia se mide en términos de probabilidad. Por lo general, no conocemos las características de la población (parámetros) como la media y la varianza. A partir de una muestra al azar de una población especificada pretendemos estimar los valores exactos de los parámetros. Definimos a un estimador como una regla que establece como calcular una estimación basada en la observación o datos de una muestra. Estimación puntual o por intervalos La estimación de un parámetro involucra el uso de los datos y alguna estadística. Existen dos tipos de estimación: La estimación puntual y la estimación por intervalo. En la estimación puntual se busca un valor del parámetro con los datos muestrales. En la estimación por intervalo, se determina un intervalo en el que en forma muy probable, se encuentra el valor del parámetro. Al intervalo se le da el nombre de intervalo de confianza. Características deseables de los estimadores puntuales. Se supone que desea especificar una estimación puntual para un parámetro que llamaremos θˆ donde el acento circunflejo indica que se estima el parámetro que se encuentra con el acentuado. Desearíamos entonces que: • La distribución muestral del estimador, se centrara alrededor del parámetro. θ 26 θˆ • Que la media o valor esperado de la distribución de las estimaciones fuera igual al parámetro estimado, esto es: E(θˆ ) = θ Estimadores insesgados Si la esperanza o valor esperado de un estadístico es igual al correspondiente parámetro, el estadístico se llama estimador insesgado del parámetro, si no es igual se llama estimador sesgado. Estimadores eficientes Supongamos que existen dos estadísticas que en su distribución muestral, tienen la misma media, al estadístico que tenga menor desviación estandar le llamaremos estimador eficiente. Regla empírica Si una v. a. x sigue un comportamiento (se distribuye) normal entonces: μ −σ μ μ +σ La regla empírica nos dice que: el 68.26% de los datos se encuentra en μ ± σ el 95.44% de los datos se encuentra en μ ± 2σ el 99.73% de los datos se encuentra en μ ± 3σ Características deseables de los estimadores por intervalos 27 • • Que el intervalo contenga al parámetro que deseamos estimar Que el intervalo sea relativamente pequeño Hay que hacer mención que los limites del intervalo son una v. a., puesto que están en función de los valores o datos de la muestra, dicho lo anterior sabemos que el rango y la localización del intervalo son cantidades aleatorias, y no podemos saber con seguridad si el parámetro θ se localiza dentro del intervalo. La probabilidad de que un intervalo de confianza contenga a el parámetro θ se le conoce como coeficiente de confianza. Ejercicios sobre estimación de medias 1. El gerente de control de calidad de una fábrica de focos necesita estimar la vida promedio de un gran embarque. Se sabe que la desviación estándar del proceso es de 100 horas. Una muestra aleatoria de 50 focos mostró una vida promedio de 350 horas. a) Estima un intervalo de confianza del 95% de la vida promedio real de los focos en este embarque. Solución. En la siguiente gráfica se muestra el 95% de confianza y el valor máximo y mínimo estandarizado: El valor de Z = 1.96 se encuentra buscando 0.025 en tablas como área; cheque también que 0.025 proviene de: Entonces: 1 − α = 0.95 α = 1 - 0.95 = 0.05 α 0.05 = = .025 2 2 28 σ n 100 350 ± 1.96 50 350 ± 27.7186 [350 − 27.7186,350 + 27.7186] [322.2814, 377.7186] x ± Zα / 2 La interpretación de este resultado es: “Se estima que la vida promedio de los focos que produce esta fábrica, está entre 322.2814 y 377.7186 horas, con una confiabilidad del 95%”. b) Explique por qué un valor observado de 320 horas no sería raro, aun cuando se encontrara fuera del intervalo calculado. 2. La división de inspección del Departamento de pesas y medias de la mota-cola está interesada en estimar la cantidad real de refresco que se envasa en botellas de dos litros. La planta embotelladora ha informado a la división de inspección que la desviación estándar por botella es de 0.05 litros. Una muestra aleatoria de 100 envases mostró un promedio de 1.99 litros. a) Estima un intervalo de confianza del 95% de la cantidad promedio real de refresco en cada botella. El valor de Z = 1.96 se encuentra buscando 0.025 en tablas como área; cheque también que 0.025 proviene de: 1 − α = 0.95 α = 1 - 0.95 = 0.05 α/2 = 0.05/2 = .025 29 x ± Zα / 2 σ n 0.05 1.99 ± 1.96 100 1.99 ± 0.0098 [1.99 − 0.0098,1.99 + 0.0098] [1.9802,1.9998] Interprete el resultado como ejercicio. b) ¿Tendría una distribución normal la población de llenado de refrescos? Explica. c) Explica por qué un valor observado de 2.02 litros no sería sorpresivo, aunque estuviera fuera del intervalo de confianza calculado? 3. Supóngase que una tienda de pinturas quisiera estimar la cantidad correcta de pintura que hay en latas de un galón, compradas a un conocido fabricante. Por las especificaciones del productor se sabe que la desviación estándar de la cantidad de pintura es igual a 0.02 galones. Se selecciona una muestra aleatoria de 50 galones y la cantidad promedio de pintura en cada lata de un galón es de 0.995 galones. a) Establece una estimación por intervalo de confianza del 99% de la cantidad promedio real de la población de pintura incluida en una lata de un galón. Sol. 0. 9877,1.0023] b) Con base en estos resultados, ¿sería posible que el propietario de la tienda tuviera derecho a quejarse del fabricante?¿Por qué? c) Explica por qué un valor observado de 0.98 galones para una lata individual no sería algo anormal, aunque estuviera fuera del intervalo calculado. 4. El diámetro promedio de una muestra de n = 100 varillas incluidas en un embarque es 2.350mm, con una desviación estándar de 0.050mm. Se supone que la distribución de los diámetros de todas las varillas incluidas en el embarque tiene una distribución aproximadamente normal. Determina el intervalo de confianza del 99% para estimar el diámetro promedio. Usted obtenga el intervalo [2.3371,2.3629]. 5. El gerente de un banco desea estimar el importe promedio en cuentas de ahorro de los depositantes. Se seleccionó una muestra aleatoria de 30 depositantes y los resultados señalaron un promedio de $4 750. Se sabe que la desviación estándar poblacional es de $1 200. a) Estima un intervalo de confianza del 95% de la cantidad promedio de la población en cuentas de ahorro. Solución [$4320.5855, $5179.4145] b) Si una persona tuviera $4 000 en una cuenta de ahorros, ¿se consideraría esto poco usual? Explica tu respuesta. 30 6. Se van a realizar, durante un mes, pruebas de mercado de un nuevo cereal en los supermercados. Los resultados para una muestra de 144 tiendas señalaron ventas promedio de $120000. Se conoce que la desviación estándar poblacional es de $1800. Estima un intervalo de confianza del 99% de las ventas promedio reales de este nuevo cereal. Solución. [$119 613, $120 387]. 7. Se desea estimar el promedio de calificaciones de los alumnos del CCH Naucalpan. Se sabe que la desviación estándar es de 1.75. Se seleccionaron aleatoriamente a 49 alumnos y se obtuvo un promedio de calificaciones de 7.47. Con un nivel de confianza del 98% estime el promedio real de calificaciones de los alumnos. Solución [6.8875, 8.0525] 8. A 60 alumnos del CCH-N se les pidió que llevaran un registro de sus gastos de transporte y alimentación durante una semana. El resultado fue un gasto promedio de $120. Sabiendo que la desviación estándar es de $20. a) ¿Cuál es la estimación por punto para la cantidad promedio? Solución $120. Interpreta el resultado obtenido. b) Establezca un intervalo de confianza del 99% para la cantidad promedio. Solución [$113.3385, $126.6615]. Interpreta el resultado obtenido. c) Establezca un intervalo de confianza del 98% para la cantidad promedio. Solución [$113.9840, $126.0160]. Interpreta el resultado obtenido. d) Establezca un intervalo de confianza del 97.4% para la cantidad promedio. Solución [$114.2422, $125.7578]. Interpreta el resultado obtenido. 9. Supóngase que está interesado en estimar el número de horas promedio que un joven de bachillerato dedica al estudio diariamente. Se sabe que σ =1.2 horas. De una muestra de 50 alumnos de bachillerato se obtuvo una media de 3.25 horas. Utilice esta información para... a) Establecer un intervalo de confianza del 95.5% para estimar el promedio de horas por día que los estudiantes de bachillerato dedican al estudio. Solución [2.9089 hrs., 3.5911 hrs.]. Interpreta el resultado. b) Establecer un intervalo de confianza del 96.4% para estimar el promedio de horas por día que los estudiantes de bachillerato dedican al estudio. Solución [2.8936 hrs., 3.6064 hrs.]. Interpreta el resultado. c) Establecer un intervalo de confianza del 92.4% para estimar el promedio de horas por día que los estudiantes de bachillerato dedican al estudio. Solución [2.9479 hrs., 3.5521 hrs.]. Interpreta el resultado. 10. El banco “Ilusiones Pasajeras” desea estimar el número de minutos que tarda un cajero en atender a una persona una vez que esta llega a cajas. Se conoce que =1.1 minutos. Se escoge una muestra aleatoria de 55 transacciones hechas con el cajero de 5.2 minutos. Obtener los siguientes intervalos de confianza para estimar el tiempo medio que tardan los cajeros en atender a los clientes una vez que llegan a ellos. a) del 95%. Solución [4.9093min. , 5.4907min.]. Interpreta el resultado. 31 b) del 92.5%. Solución [4.9360min. , 5.4640min.]. Interpreta el resultado. c) del 90%. Solución [4.9553min. , 5.4447min.]. Interpreta el resultado. Ejercicios sobre estimación de proporciones 1. Una empresa de investigación de mercados entrevista a una muestra aleatoria de 100 hombres de una comunidad grande y encuentra que una proporción muestral de 0.40 de ellos prefieren las hojas de rasurar fabricadas por la empresa cliente de los investigadores y no de las demás marcas. Construir un intervalo de confianza del 90% para la proporción de todos los hombres de esa comunidad que prefieren las hojas de rasurar de la empresa cliente de los investigadores. Solución. El 90 % del nivel de confianza que se requiere se encuentra representado con la siguiente gráfica: El intervalo de confianza se obtendrá utilizando: p̂(1 − p̂) n sustituyendo : p̂ ± Zα / 2 0.40 ± 1.65 (0.40)(0.60) 100 0.40 ± 1.65 0.0024 0.40 ± 0.0808 [0.3192, 0.4808] [31.92%, 48.08%] Por lo tanto, se estima que entre el 31.92% y el 48.08 de los hombres de esa comunidad prefiere las hojas de rasurar fabricadas por la empresa que realiza la investigación , con una certeza del 90%. 2. Un investigador desea estimar la proporción de hombres que fuman en el municipio de Atizapán de Zaragoza. En una muestra de 100 de ellos, 27 le mencionaron que tienen el hábito de fumar. Utilice está información para establecer un intervalo de confianza del 96.5 % para la proporción de hombres fumadores, que radican en el municipio de Atizapán de Zaragoza. Solución [0.1763, 0.3637]. Interprete el resultado obtenido. 32 3. Un especialista en genética está interesado en la proporción de hombres africanos que presentan un desorden sanguíneo leve. En una muestra aleatoria de 100 de ellos, se encontró que 24 presentaban dicho desorden. a) Calcula un intervalo de confianza del 99% para la proporción de hombres africanos que tienen este desorden sanguíneo. Solución [0.1298, 0.3502]. Interpreta el resultado obtenido. b) Calcula un intervalo de confianza del 94% para la proporción de hombres africanos que tienen este desorden sanguíneo. Solución [0.1597, 0.3203]. Interpreta el resultado obtenido. 4. En una muestra aleatoria de n = 500 familias que poseen televisores en la ciudad de Morelia, Michoacán, se encontró que x = 340 se habían suscrito a televisión por cable. Encuentra un intervalo de confianza del 98% para la proporción actual de familias en esta ciudad que están inscritos en este servicio. Solución [0.6314,0.7286]. Interpreta el resultado obtenido. 5. El gerente de un banco quería determinar la proporción de sus depositantes a quienes se les paga sobre una base semanal. Se seleccionó una muestra aleatoria de 100 depositantes y 30 de ellos informaron que se les pagaba semanalmente. Estima un intervalo de confianza del 95.45% de la proporción real de depositantes a quienes se les pagaba semanalmente. Solución [0.2083, 0.3917]. Interpreta el resultado obtenido. 6. Suponga que usted es uno de los 60,000 aficionados de fútbol que están en un estadio, ha tomado una muestra de 500 aficionados y encuentra que de 200 de ellos son mujeres, estime la proporción poblacional del número de mujeres mediante un intervalo de confianza del 95%. Solución [0.3571, 0.4429]. Interpreta el resultado obtenido. 7. En 1997, el equipo de trabajo del Ingeniero Cárdenas realizó una encuesta para estimar que porcentaje de la población votaría por él, el tamaño de la muestra fue de 200 personas, de las cuáles 110 mencionaron que votarían por el Ingeniero. Determine los siguientes intervalos de confianza para estimar la proporción de electores que votaría por Cárdenas. a) del 90%. Solución [0.4920, 0.6080]. Interpreta el resultado. b) del 91%. Solución [0.4902. 0.6098]. Interpreta el resultado. 8. La empresa Panasound desea estimar el porcentaje de grabadoras defectuosas que fabrica, para ello toma una muestra aleatoria de 120 grabadoras y observa que solamente 5 de ellas tienen algún defecto. Establezca los siguientes intervalos de confianza para estimar la proporción real de grabadoras defectuosas que fabrica. a) del 95%. Solución [0.0059, 0.0775]. Interpreta el resultado. b) del 90.3%. Solución [0.0114, 0.0720]. Interpreta el resultado. Pruebas de hipótesis Las pruebas de hipótesis son junto con la estimación las dos ramas principales de la estadística inferencial. 33 Una prueba de hipótesis consiste en evaluar proposiciones acerca de los valores de los parámetros. La evaluación consistirá en determinar si la diferencia entre un valor propuesto de un parámetro y el valor estadístico se debe razonablemente a la variabilidad de muestreo o si la discrepancia es demasiado grande para ser considerada de esa manera. El primer paso de la prueba de hipótesis será la de formular 2 hipótesis con respecto a un parámetro de interés. Al realizar una prueba de hipótesis se caerá en alguna de las siguientes situaciones: HIPÓTESIS NULA DECISIÓN VERDADERA FALSA ACEPTAMOS HO DECISIÓN CORECTA ERROR TIPO II RECHAZAMOS HO ERROR TIPO I DECISIÓN CORRECTA Ejemplo 1. Los salarios diarios de una empresa de hamburguesas en particular presentan una distribución normal, con una media de $2000 quincenales y una desviación de $300. Si en una sucursal de esta empresa que emplea a 40 trabajadores les paga en promedio $1900 quincenales, ¿puede acusarse a esta sucursal de pagar salarios inferiores? Utilice un nivel de significación del 1%. Solución. o : μ = 2000 a : μ < 2000 H H Z prueba 34 x−μ σ/ n 1900 − 2000 = 300 / 40 = −2.11 = En la gráfica se observa que el valor z prueba cae en la región de aceptación, por lo tanto se acepta Ho , es decir, no hay evidencia suficiente para acusar a la sucursal de que paga salarios inferiores con un nivel de significación del 1%. Ejemplo 2. Un fabricante de zapatos afirma que el 20% del público prefiere su producto. Se toma una muestra de 100 personas para verificar su afirmación, y se encuentra que 19 de ellas prefieren su producto. ¿Es válida la afirmación del fabricante a un nivel de significación del 0.05? H : p = 0.20 H : p < 0.20 Z o prueba a n = 100 x = 19 x 19 = = 0.19 n 100 α = 0.05 p̂ = p̂ − p p(1 − p) n 0.19 − 0.20 = (0.20)(0.80) 100 = −0.25 = El valor estadístico de prueba -0.25 cae en la región de aceptación, por lo tanto, acepto Ho ; es decir, no hay suficiente evidencia para rechazar la afirmación hecha por el fabricante de que el 20% del público prefiere su producto, con nivel de significación del 5%. Ejemplo 3. Un profesor asevera que el 8% de las estudiantes del CCH-N son madres solteras, un grupo de estudiantes no cree que tal aseveración sea correcta, afirmando que la proporción de estudiantes que son madres solteras es menor al 8%, por tanto, se decidieron a realizar un muestreo de 121 estudiantes mujeres para refutar la afirmación hecha por el profesor, observando que solamente el 6 % de esas estudiantes son madres solteras. Utilice un nivel de significación del 0.01 para aceptar o rechazar la afirmación del profesor. 35 H : p = 0.08 H : p < 0.08 Z o prueba a n = 121 p̂ = 0.06 α = 0.01 p̂ − p p(1 − p) n 0.06 − 0.08 = (0.08)(1 − 0.08) 121 = −0.81 = El valor z prueba cae en la región de aceptación, pro lo tanto no hay suficiente evidencia para rechazar la aseveración del profesor a un nivel de significación del 1%. Ejemplo 4. La Secretaría de Servicios Estudiantiles de una escuela afirma que solamente el 10% de sus alumnos es regular (alumnos que no adeudan materias). El profesor Ramírez que imparte clases en esa escuela, cree que tal afirmación es incorrecta, mencionando que el porcentaje es aún menor que el 10%, ya que el realizó un muestreo de 200 estudiantes y observó que solamente 18 de ellos es regular. ¿Puede decirse entonces que el porcentaje de alumnos regulares es menor al 10%? Utilice un nivel de significación del 0.05. Solución. Se proporcionará el procedimiento de manera parcial, por lo tanto usted tendrá que llenar los espacios vacíos con el valor correspondiente H H o : p = 0.10 a : p < _____ Z prueba = α = 0.05 = n = 200 x = 18 18 ∴ p̂ = = 0.09 200 p̂ − p p(1 − p) n 0.09 − _____ (0.10)(1 − ____) _____ = −.47 36 Como z prueba = −0.47 se encuentra dentro de la región de aceptación, no podemos rechazar la hipótesis de que solamente el 10% de los alumnos es regular con un nivel de significación del 5% Ejemplo 5. Se ha informado a los alumnos que la media del promedio de sus calificaciones es de 6.5 con una desviación estándar de 2. Los alumnos indignados por tal aseveración y pensando que el promedio es mucho mayor a lo mencionado, realizaron un muestreo de 500 estudiantes, obteniendo una media muestral de 6.9. ¿Hay suficiente evidencia para rechazar la información proporcionada a los alumnos con respecto a su promedio y afirmar que este es mayor a lo mencionado? Utilice un nivel de significación para responder. Solución. Se dejarán algunos pasos del procedimiento para que los realice el alumno. H H o : ________ a : ________ Z prueba n = 500 x = 6.9 σ =2 α = 0.05 Como z prueba x−μ σ/ n 6.9 − ____ = ____/ ___ = = 4.47 = 4.47 se rechaza la hipótesis nula, por lo tanto, hay suficiente evidencia para decir que el promedio de calificaciones de los alumnos es superior a 6.5 con un nivel de significación del 5%. Ejemplo 6. Supóngase que en el CCH-N se ha asegurado que el peso promedio de las alumnas es de 54.4 kgs y una desviación estándar de 5.4. Uno de los profesores no cree que tal aseveración sea correcta, mencionando que dicho promedio es aún menor. Con el fin de contrastar la afirmación reúne una muestra aleatoria de 100 alumnas para registrar su peso, 37 obteniéndose una media de 53.75 kgs. ¿Es esta evidencia suficiente para considerar que efectivamente el promedio es menor a lo asegurado? Solución: H o : μ = 54.4 H a : μ < 54.4 x−μ σ/ n 53.75 − 54.4 = 5.4 / 100 = −1.20 Z prueba = Como z prueba = −1.20 cae en la región de aceptación, la hipótesis nula es aceptada, por lo tanto, no hay suficiente evidencia para decir que el promedio de peso de las alumnas del CCH-N sea menor al 54.4 kgs. con un nivel de significación del 5%. Ejercicios de pruebas de hipótesis 1. Una moneda supuestamente justa se lanza 256 veces, observándose que 110 de las cuáles fueron águila, ¿es justa la moneda? Utilice un nivel de significación del 1% para justificar su respuesta. 2. Un dado supuestamente justo se lanza 125 veces, observándose que el 20% de las cuáles se observó el 3 en la cara superior, ¿el dado estará cargado? Utilice un nivel de significación del 5% para justificar su respuesta. 3. Uno de los profesores del plantel Naucalpan afirma que en su plantel la mayoría de los estudiantes fuma. El profesor Eduardo Manzano no cree que tal aseveración sea correcta, por lo que realizó un muestreo de 100 estudiantes, de los cuáles encontró 38 que 45 de ellos fuman; ¿invalida la muestra la afirmación del profesor de que la mayoría de la comunidad estudiantil fuma? Utilice un nivel de significación del 5% para responder. 4. Se dice que el 65% de los estudiantes del CCH-N son mujeres. Se realizo un muestreo de 100 alumnos, de los cuáles 60 eran mujeres. Pruebe: H o : p = 0.65 Utilice un α = 0.05 H a : p < 0.65 5. El gerente de un gran centro comercial afirma que el promedio de tiempo de espera de sus clientes para ser atendidos en caja es de 4 minutos con una desviación estándar de 1.2 minutos. Se realizó un muestreo de 100 clientes con el cuál se observo una media de 4.5 minutos. ¿Invalida el muestreo la afirmación del gerente a un nivel de significación del 5%? 6. Un profesor asevera que el promedio de gastos semanales por transporte y alimentación de los estudiantes no excede los $100; un padre de familia cree que el profesor no tiene idea de lo que realmente los muchachos gastan, así que realizó un muestreo obteniendo los siguientes resultados: 20 alumnos le mencionaron que gastaban $130 semanalmente, 20 le dijeron que $100 y 40 le dijeron que gastaban $90. Sabiendo que σ = 40 y utilizando la información del padre de familia, ¿Cree que haya suficiente evidencia para rechazar la aseveración del profesor? Utilice un nivel de significación del 5%. 7. PROFECO realizó un muestreo de 200 botellas de medio litro de Hidra-Cola, obtuvo una media de 495 mililitros. Sabiendo que σ = 0.045 mililitros, ¿cree que con está información la empresa merezca una demanda? Utilice α =0.05 39 40