INGENIERÍA QUÍMICA: EXAMEN DE ESTADÍSTICA. 9 DE FEBRERO DE 1999 1.-Tres imprentas hacen trabajos para una oficina de publicaciones: Los datos que a continuación se expresan reflejan la experiencia a largo plazo con estas imprentas Proporción de contratos Proporción de entrega con Impresor correspondientes retraso de más de un mes 1 .2 .1 2 .3 .4 3 .5 .2 La oficina descubre un trabajo con más de un mes de retraso. Calcular la probabilidad de que el impresor 3 sea el que tiene el contrato. SOLUCION: P(impresor 3/más de un mes de retraso)= P(impresor 3, más de un mes de retras0)/P(más de 1 mes de retraso) = p(mas de un mes de retraso/impresor 3) P(impresor 3)/[P( P( /2)P(2)+P( /1)P(1) + /3)P(3)] = (0,2x0,5)/(0,1x0,2+0,4x0,3+0,2x0,5)=0,1/0,24=0,416 2.- El servicio postal requiere, en promedio, 2 días para entregar una carta al otro lado de la ciudad. Se estima que la varianza es de 0,4. Si un ejecutivo desea que el 99% de sus cartas sean entregadas a tiempo, ¿Con qué anticipación debe ponerlas en el correo? SOLUCIÓN: 1 1 1 P( X − μ ≤ kσ ) ≥ 1 − 2 = 0.99 1 − 2 > 0.99 k 2 ≥ 100 k ≥ 10 ≤ 0.01 k k k2 σ 2 = 0.4 σ = 0.632 X ≤ 2 + 6.32 Debe enviarlas con 9 días de antelación. 3.- Un lote de 200 piezas presenta 5 defectuosas. Calcular la probabilidad de que en una muestra aleatoria de tamaño 50 se encuentre al menos una defectuosa. Calcular el tamaño muestral necesario para detectar tres o menos piezas defectuosas el 90% de las veces. SOLUCIÓN: ⎛ 195⎞ ⎜ ⎟ ⎝ 50 ⎠ =0,233 Sin reemplazamiento P (0 defectuosas)= ⎛ 200⎞ ⎜ ⎟ ⎝ 50 ⎠ P(al menos una defectuosa)=0,766 Con reemplazamiento p=5/200=0,025 n=50 P(0 defectuosas)=(0,975)50 = 0,2819 P(al menos una defectuosa)= 0,7181 Se puede aproximar por una variable de Poisson de parámetro 50x0,025=1,25 P(X=0)=(0,301+0,272)/2= 0,286 P(al menos una defectuosa)= 0,714 P(X3)=0,9 tablas λ= 1,7 np = 1,7 n =1,7/0,025= 68 1 4.- Un fabricante de cierto monitor comercial de televisión garantiza el cinescopio por un año (8760 h). Los monitores se usan en terminales de aeropuertos para indicar horarios de vuelo y están en uso continuo. La vida media de los cinescopios es 20000 y sigue una distribución exponencial. Al fabricante le cuesta 45000 Pts hacer un monitor y le vende en 60000 Pts. Le cuesta 22000 Pts reemplazar un cinescopio en periodo de garantía. ¿Cuál es la ganancia esperada del fabricante? Suponemos que el fabricante reemplaza el cinescopio solo una vez. SOLUCION : λ=1/20000 8760 P (T8760)= − λt ∫ λe dt = 1 − e − 8760 20000 = 1 − 0.6453 = 0,354 0 15000 si T > 8760 Ganancia = -7000 si T8760 E (G)= 15000x0, 645-7000 x 0,354= 7190 Ganancia esperada 5.- Un ensamble está compuesto por tres componentes colocados uno junto al otro. La longitud de cada componente se distribuye normalmente con media 2 cm. y desviación típica 0,2 cm. Las especificaciones requieren que todos los ensambles tengan una longitud entre 5,7 y 6,3 cm. ¿Cuántos ensambles verificarán estos requerimientos? SOLUCION: Sean X1, X2, X3 la longitud de los componentes cada uno de ellos con distribución normal de media 2 y varianza (0,2)2 = 0,04. La suma tiene una distribución normal de media 3x2=6 y varianza 0,04x3= 0,12. Nos piden P(5,7<X1+X2+X36,3) tipificando la variable 5,7 − 6 6,3 − 6 P( ≤Z≤ ) = P(−0,867 ≤ Z ≤ 0,867) = 2Φ (0,867 ) − 1 = 2 x0,805 − 1 = 0,610 0,12 0,12 6.- Una droga A se administró a 7 pacientes seleccionados al azar y después de un periodo fijo, se midió en las unidades apropiadas la concentración de la droga en ciertas células de cada paciente. Se obtuvieron los resultados siguientes: 1,23 1,42 1,41 1,62 1,55 1,60 1,76 Se administró una segunda droga B a otros 6 pacientes distintos seleccionados al azar con los resultados siguientes: 1,76 1,41 1,87 1,49 1,67 1,81 Suponiendo que todas las observaciones siguen una distribución normal con una varianza común desconocida. Calcular un intervalo de confianza para la diferencia de medias al nivel 0,1. Contrastar las siguientes hipótesis al nivel 0,1. Calcular la región crítica y el p valor. H0: μAμB H0: μA=μB H1: μA≠μB H1: μA<μB SOLUCION: X 1 = 1,512 S12 = 0,030 S1=0,17 X 2 = 1,668 S12 = 0,033 S2=0,183 X 1 − X 2 = −0,156 6 x0,03 + 5 x0,033 0,345 = = 0,031 11 11 t0,05, 11 = 1,796 S2 = S=0,177 S 1 1 + = 0,098 6 7 2 Intervalo -0,156 ±⎯1,796x0,098 =(-0,332, 0,020) Hipótesis unilateral es equivalente a H0: μA=μB H1: μA<μB t0= -0,156/0,107=-1,457 t0,1,11= 1,363 Región crítica t0<-1,363 Rechazamos la hipótesis de que la media del primer tratamiento sea mayor que la media del segundo al nivel 0,1 p valor: P (t11 < -1,47)=P (t11>1,47) <P (t11>1,363)=0,1 El p valor es menor de 0,1 cosa que ya sabíamos ya que rechazamos la hipótesis a este nivel. También puede verse que es mayor de 0,05. Su valor exacto es 0,086 Hipótesis bilateral: Región crítica t 0 > 1,796 Aceptamos la hipótesis nula de que los dos tratamientos tienen la misma media. P valor: P ( t11 > 1,475) = 2 x0,086 = 0,172 7.- El porcentaje de impurezas en oxigeno producido mediante un proceso de destilación se considera relacionado con el porcentaje de hidrocarburo en el condensador principal del procesador. Se dispone de los datos de un mes de operación, dados a continuación. Se pide: Ajustar un modelo de regresión Hacer el contraste de regresión: Hallar la región crítica y el p valor Intervalo de confianza para la pendiente Calcular R2 Hacer uso de los datos proporcionados y rellenar los que faltan ¿Qué se desprende del análisis de los residuos? Pureza ( %) 86,91 89,85 90,28 86,34 92,58 87,33 86,29 91,86 95,61 89,86 96,73 99,42 98,66 96,07 93,65 87,31 95 96,85 85,20 90,56 hidrocarburo (%) 1,02 1,11 1,43 1,11 1,01 ,95 1,11 ,87 1,43 1,02 1,46 1,55 1,55 1,55 1,40 1,15 1,01 ,99 ,95 ,98 n Media Varianza muestral Desviación Standard Covarianza predicción limite superior predicción 97,7339 98,7233 102,691 98,7233 97,6274 97,0019 98,7233 96,2039 102,691 limite inferior estimación 87,8338 89,1914 92,2611 89,1914 87,6728 86,6758 89,1914 85,2858 92,2611 limite superior estimación 91,9668 94,7388 90,9624 89,7823 89,0743 90,9624 88,1302 94,7388 limite inferior predicción 82,0667 83,2015 86,7868 83,2015 81,9373 81,1466 83,2015 80,0565 86,7868 95,0928 96,1549 96,1549 96,1549 94,3847 91,4345 89,7823 89,5463 89,0743 89,4283 87,0879 87,9579 87,9579 87,9579 86,4799 83,6881 81,9373 81,6764 81,1466 81,5449 103,098 104,352 104,352 104,352 102,29 99,1808 97,6274 97,4163 97,0019 97,3117 92,4502 92,9776 92,9776 92,9776 92,0629 89,7282 87,6728 87,346 86,6758 87,1804 97,7354 99,3322 99,3322 99,3322 96,7066 93,1407 91,8918 91,7466 91,4728 91,6762 89,9003 Hidrocarburo 20 1,1825 0,0560513 0,236752 0,661463 97,2164 92,7335 91,8918 91,4728 92,7335 90,9745 97,2164 pureza 20 91,818 20,0604 4,47888 3 Análisis de Regresión - Modelo: Y = a + b*X Variable Dependiente: pureza Variable Independiente: hidrocarburo Error Estadístico Parámetro Estimador Estándar T P-Valor Ordenada 77,8633 4,19889 18,5438 0,0000 Pendiente 3,48512 3,38612 0,0033 Análisis de la Varianza Fuente Suma de cuadrados Df Media Cuadrática F-Ratio P-Valor Modelo 148,313 1 148,313 11,47 0,0033 Residual Total (Corr.) 381,147 Coeficiente Correlación = 0,623797 R-cuadrado = Standard Error de estimación. = 3,59656 Plot del modelo ajustado Residual Plot 100 8 residuos pureza 97 94 91 4 0 -4 88 -8 85 0.87 1.07 1.27 1.47 1.67 88 90 92 94 96 hidrocarburo pureza estimada Normal Probability Plot for RESIDUOS Box-and-Whisker Plot 98 99.9 99 95 80 50 20 5 1 -5 0.1 -4.7 -2.7 -0.7 1.3 3.3 5.3 7.3 9.3 RESIDUOS -2 1 4 7 10 RESIDUOS Histograma para RESIDUOS 6 frecuencia 5 4 3 2 1 0 -5 -2 1 4 7 10 RESIDUOS Solución: 4 Cov( X , Y ) = 11,801 S X2 Modelo de Regresión: pureza = 77,8633 + 11,801x hidrocarburo 20 S X β 1 11,801 = = 3,38612 t = SR 3,48 βˆ1 = Región crítica: t > t18, 0.025 = 2,101 Rechazamos la hipótesis. Hay relación lineal entre las variables. P valor: P ( t18 > 3,38612 ) = 0,0033 Intervalo de confianza para la pendiente: β 1 ∈ βˆ1 ± 2,101x3,48512 ( ) 20 S X βˆ1 − β 1 ≤ t18,0.025 SR β 1 ∈ (4,478;19,123) VE 148,313 = = 0,3891228 VT 381,147 VNE= VT-VE= 232,834 Df = 18 Media Cuadrática = 232,834/18=12,.935 VT Df= 19 Predicción para hidrocarburo = 1,11: El punto central de intervalo de la predicción de pureza (98,7233+83,2015)/2=90,9624 Límite superior del intervalo de estimación: 90,9624- 89,1914=1,771; 90,9624+1,771=92,7334 Predicción para hidrocarburo = 1,02 Pureza = 77,863+11,801x1,02=89,9002 Intervalo de confianza para la estimación: Tamaño muestral 20 = 13,5951 nˆ = 2 ⎛ 1,02 − 1,1825 ⎞ 1+ ⎜ ⎟ ⎝ 0,236752 ⎠ S 3,59656 = 89,9002 ± 2,0493 Intervalo 89,9002 ± t18,0,025 R = 89,9002 ± 2,101 nˆ 13,5951 (87,8508; 91,9495) Intervalo para la predicción 1 89,9002 ± t18,0, 025 S R 1 + = 89,9002 ± 2,101x3,59656 1,036 = 89,9002 ± 7,6910 nˆ (82,2091; 97,5912) El R2 es muy bajo la regresión solo explica el 39,91 % de la variabilidad. Analizando los residuos, sobre todo el histograma vemos que éstos no son centrados, la distribución no es simétrica. El diagrama de cajas también manifiesta la falta de simetría y el plot Probabilístico nos dice que en las colas el ajuste a la normal no es demasiado bueno. R2 = 5 EXAMEN DE ESTADISTICA 2º de Ingeniería química 9 de septiembre de 1999 1.- A continuación se presentan datos de viscosidad de un lote de cierto proceso químico. 13,3 14,9 15,8 16,0 14,5 13,7 13,7 14,9 15,3 15,2 15,1 13,6 15,3 14,5 13,4 15,3 14,3 15,3 14,1 14,3 14,8 15,6 14,8 15,6 15,2 15,8 14,3 16,1 14,5 13,3 14,3 13,9 14,6 14,1 16,4 15,2 a. Construir un diagrama de tallo- hojas para los datos de viscosidad. b. Construir una tabla de distribución de frecuencias. c. Calcular los cuartiles primero, segundo y tercero y construir un diagrama de cajas. SOLUCIÓN: a. Diagrama de tallo-hojas Tallo hojas 13 3776439 14 95953138835361 15 832133366282 16 014 También podemos subdividir cada tallo Tallo hojas 3 13A 343 7 13B 7769 13 14A 313331 (8) 14B 95958856 15 15A 32133322 7 15B 8668 3 16A 014 b. Distribución de frecuencias de la variable viscosidad Intervalo Centro Frecuencia Frecuencia Frec absoluta Fre relativa Absoluta Relativa acumulada acumulada 13-13,5 13,25 3 0,083 3 0,083 13,5-14 13,75 4 0,111 7 0,194 14-14,5 14,25 6 0,166 13 0,361 14,5-15 14,75 8 0,22 21 0,583 15-15,5 15,25 8 0,22 29 0,805 15,5-16 15,75 4 0,11 33 0,916 16-16,5 16,25 3 0,083 36 1 c. Para calcular los cuartiles ordenamos los datos de menor a mayor 13,3 13,3 13,4 13,6 13,7 13,7 13,9 14,1 14,1 / 14,3 14,3 14,3 14,3 14,5 14,5 14,5 14,6 14,8 // 14,8 14,9 14,9 15,1 15,2 15,2 15,2 15,3 15,3 / 15,3 15,3 15,6 15,6 15,8 15,8 16,0 16,1 16,4 Primer cuartil (14,1+14,3)/2 = 14,2 Segundo cuartil o mediana (14,8+14,8)/2 = 14,8 Tercer cuartil 15,3 Rango intercuartílico 15,3-14,2 = 1,1 Límite superior del diagrama de cajas 15,3 + 1,5x1,1 = 16,95 Límite inferior 15,3 – 1,1x1,5 = 12,55 En nuestro caso los límites superior e inferior son 16,4 y 13,3 El diagrama de cajas queda representado por la siguiente figura 6 13 14 15 16 17 2.- Las cuadrillas de mantenimiento llegan al cuarto de herramientas pidiendo cierta parte de repuesto según una distribución de Poisson de parámetro 2. El cuarto de herramientas dispone de tres repuestos. Si se presentan más de tres, las cuadrillas deben recorrer una distancia considerable hasta el almacén central. En un día cualquiera a. ¿Cuál es la probabilidad de que tenga que realizarse dicho recorrido? b. ¿Cuál es la demanda diaria esperada de partes de repuesto? c. ¿Cuántas partes de repuesto deberán tenerse en el cuarto de herramientas para asegurar el servicio a todas las cuadrillas un 90% de las veces? d. ¿Cual es el número esperado de cuadrillas que recibirán servicio diariamente en el cuarto de herramientas? Utilizar las tablas SOLUCION: a. Probabilidad de realizar el recorrido hasta el almacén = P(X>3) = 1- P(X3) = 1 - 0.857 = 0.143 b. demanda media diaria = E(X)= 2 c. Se busca un número a tal que P( X ≤ a ) ≥ 0.9 Buscando en las tablas P( X ≤ 4) = 0.947 . Con 4 repuestos en el cuarto de herramientas se asegura el servicio el 90% de las veces. d. Se trata de calcular la distribución de la variable X condicionada por X3 y después calcular su media. P(X=0)= 0.135 P(X=0/ X3)=0.135/0.857=0.157 P(X=1)= P(X1)-P(X=0)= (0.406-0.135) = 0.271 P(X=1/ X3)=0.271/0.857=0.316 P(X=2)= P(X2)-P(X1) =(0.676-0.406) =0.270 P(X=2/ X3)=0.270/0.857=0.315 P(X=3)= P(X3)-P(X2)=(0.857-0.676)=0.181 P(X=3/ X3)=0.181/0.857=0.211 número medio de cuadrillas que reciben servicio en el cuarto de herramientas = P(X=1/ X3)+2P(X=2/ X3)+3P(X=3/ X3)=1.569 7 3.- Un lote de 50 arandelas espaciadoras contiene 30 que son más gruesas que la dimensión requerida. Se escogen tres arandelas al azar, sin reemplazo a. Calcular la probabilidad de que las tres arandelas sean más gruesas que la dimensión requerida b. Sabiendo que las dos primeras arandelas no son más gruesas de lo requerido, calcular la probabilidad de que la tercera si lo sea. c. Calcular la probabilidad de que la tercera arandela sea más gruesa de la dimensión requerida. d. Calcular el número mínimo de arandelas que es necesario tomar del lote para que la probabilidad de que ninguna de ellas sea más gruesa de lo requerido sea menor que 0,1. e. Calcular el número mínimo de arandelas que es necesario tomar del lote para que la probabilidad de que una o más de ellas sea más gruesa de lo requerido sea al menos de 0,9. SOLUCION: a. n = 50 , m = 30 son más gruesas ; llamamos Ai al suceso la arandela i es más gruesa ⎛ 30 ⎞ ⎜⎜ ⎟⎟ 3 30 x 29 x38 P( A1 A2 A3 ) = ⎝ ⎠ = = 0,271 ⎛ 50 ⎞ 50 x 49 x 48 ⎜⎜ ⎟⎟ ⎝3⎠ 30 = 0,625 b. P ( A3 / A1 A 2 ) = 48 P ( A3 ) = P( A1 A 2 A3 ) + P( A1 A2 A3 ) + P( A1 A 2 A3 ) + P ( A1 A2 A3 ) c. 20 19 30 20 30 29 30 20 29 30 29 28 = x x + x x + x x + x x = 0.6 50 49 48 50 49 48 50 49 48 50 49 48 d. Se trata de calcular n para que P ( A1 A 2 ... An ) < 0,1 . 20 Si n=1 P ( A1 ) = = 0,4 50 20 19 Si n=2 P ( A1 A 2 ) = = 0,155 50 49 20 19 18 Si n=3 P ( A1 A 2 A 3 ) = = 0,058 50 49 48 El n buscado es 3. e. P (una o más arandelas sean más gruesas) = 1 – P (ninguna sea más gruesa) >0,9. El n buscado es el mismo de antes, es decir, n=3. 4.- De un proceso químico se toma cada hora una muestra de 20 partes. Lo común es que el 1% de las partes requieran volver a ser procesadas. Sea X el número de partes de una muestra de 20 que necesitan ser reprocesadas. Se sospecha de un problema en el proceso si X es mayor que su media por tres desviaciones estándar. a. Calcular la probabilidad de que se sospeche de la existencia de un problema. b. Si el porcentaje de partes que necesita reprocesarse es de 4%. Calcular la probabilidad de X sea mayor que 1. c. Calcular la probabilidad de que X sea mayor que 1 en al menos una de las muestras tomadas en las próximas 5 horas. SOLUCION: 8 a. n = 20; p=0,01, la variable X sigue una distribución B (20, 0,01). E(X) = 20x0,01 = 0,2 = μ σ2 = 20x0,01x0,99 = 0,198; σ = 0,4449; X −μ P( > 3) = P( X − μ > 3σ ) + P( X − μ < −3σ ) = P( X > 1,534) + P( X < −1,13) = P( X > 1) = σ 1 − P ( X = 0) − P( X = 1) = 1 − 0,9919 − 20 x0,01x0,9919 = 1 − 0,817 − 0,165 = 0,018 Si utilizamos aproximaciones nxp=20x0,01=0,2, podemos aproximar X por una variable de Poisson de parámetro 0,2 ; buscando en las tablas P(X>1) = 1-P(X≤1) ≅1-0,982=0,01 b. Si p = 0,04, la variable X sigue una distribución B(20, 0,04) P(X>1) = 1 – P(X=0) – P(X=1) = 1-0,442-0,368 = 0,19. Aproximando nxp = 20x0,04 = 0,8 ; aproximamos X por una variable de Poisson de parámetro 0,8; P(X>1) = 1 - P(X≤1)≅1 - 0,808 = 0,192 c. Sean X1, X2, X3, X4, X5 las muestras obtenidas en las 5 horas siguientes. Definimos las variables Yi =1 si Xi > 1; Yi = 0 en caso contrario para i=1, 2, 3, 4, 5. Sea Y = Y1 +Y2 + Y3 + Y4 + Y5. Nos piden calcular P (Y ≥ 1) . La variable Y sigue una distribución B (5, 0,19). Por tanto P (Y ≥ 1) = 1 − P(Y = 0) = 1 − (0,810) = 1 − 0,349 = 0,65 5 5.- Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas. Las distribuciones de los volúmenes de llenado pueden suponerse normales con desviaciones estándar 0,02 y 0,025 onzas. Un miembro del grupo de ingeniería de calidad sospecha que el volumen de llenado de las dos maquinas es el mismo, sin importar si éste es de 16 onzas o no. Se toma una muestra aleatoria de 10 botellas Máquina 1 16,03 16,04 16,05 16,05 16,02 16,01 15,96 15,98 16,02 15,99 Máquina 2 16,02 15,97 15,96 16,01 15,99 16,03 16,04 16,02 16,01 16 a. Utilizando α=0,05. ¿Tiene razón el ingeniero? b. Calcular el p-valor de la prueba. c. Calcular la potencia del contraste si la diferencia entre las medias es de 0,095. d. Suponiendo el tamaño muestral el mismo para las dos muestras, calcular el tamaño de muestra necesario para asegurar que β=0,05 cuando la diferencia de las medias es de 0,08. SOLUCION: a. Dadas dos muestras de tamaño 10 de las variables X1→N (μ1, 0.02) y X2→N (μ2, 0,025) se H 0 : μ1 = μ 2 al nivel α = 0,05. Bajo H0 el trata de realizar el siguiente contraste H 1 : μ1 ≠ μ 2 estadístico Z 0 = X1 − X 2 σ 12 n1 + σ 22 → N (0,1) . La región crítica al nivel 0,05 viene dada por n2 Z 0 > z 0, 025 ; buscando en las tablas de la normal z0,025= 1,96. Para nuestras muestras el valor de Z0 es 0,9871 que no cae dentro de la región crítica por tanto acepto la hipótesis nula y el ingeniero tiene razón. b. P ( Z > z 0 ) = 2(1 − Φ ( z 0 )) = 2(1 − Φ (0,9871)) = 2 x(1 − 0,836) = 0,338 , como vemos el p-valor es muy grande lo que nos apoya en nuestra decisión de aceptar la hipótesis nula de igualdad de medias. 9 P (aceptarH 0 / μ1 − μ 2 = 0,095) = P( Z 0 ≤ 1,96 / μ1 − μ 2 = 0,095) = P (−1,96 ≤ Z 0 ≤ 1,96 / μ1 − μ 2 = 0,095) = c. P (−1,96 − 0,095 σ 12 n1 + σ 22 ≤ n2 X 1 − X 2 − 0,095 σ 12 n1 + σ 22 ≤ 1,96 − n2 0,095 σ 12 n1 + σ 22 / μ1 − μ 2 = 0,095) = n2 P (−11,34 ≤ Z ≤ −7,42) = Φ (−7,42) − Φ (−11,34) ≅ 0 La potencia viene dada por 1- P (aceptarH 0 / μ1 − μ 2 = 0,095) ≅ 1 0,08 d. P (aceptarH 0 / μ1 − μ 2 = 0,08) ≤ 0,05 , d = = 2,498 . σ 12 + σ 22 Buscando en las curvas OC encontramos n = 2 ó n = 3. Si n = 2 P (aceptarH 0 / μ1 − μ 2 = 0,08) = P (−1,96 − 0,08 σ 2 1 σ 2 2 ≤ X 1 − X 2 − 0,08 σ 2 1 σ 2 2 ≤ 1,96 − 0,08 σ 12 σ 22 / μ1 − μ 2 = 0,08) = + + + 2 2 2 2 2 2 P (−5,492 ≤ Z ≤ −1,572) ≅ Φ (−1,572) = 1 − Φ (1,572) = 0,059 Si n = 3 P (aceptarH 0 / μ1 − μ 2 = 0,08) = P (−1,96 − 0,08 σ 12 σ 22 ≤ X 1 − X 2 − 0,08 σ 12 σ 22 ≤ 1,96 − 0,08 σ 12 σ 22 / μ1 − μ 2 = 0,08) = + + + 3 3 3 3 3 3 P (−6,286 ≤ Z ≤ −2,366) ≅ Φ (−2,366) = 1 − Φ (2,366) = 0,01 La respuesta es n = 3. 6.- Una compañía productora de energía eléctrica está interesada en desarrollar un modelo que relacione la demanda pico por hora (y, en Kw.) con el uso de energía total al mes (x, en Kwh.). Se dispone de una muestra de 49 clientes que se ha procesado con el paquete Statgraphics y se han obtenido los siguientes resultados XKWH YKW n 49 49 Media 1083,02 3,24204 Varianza 293589,0 5,84703 Desviación típica 541,838 2,41806 Mínimo 292,0 0,17 Máximo 2316,0 9,5 Cov(X,Y)=1020,1 Análisis de Regresión - Modelo: Y = a + b*X Variable Dependiente: YKW Variable Independiente: XKWH Parámetro Estimador Error Standard Estadístico T P-Valor Intercept -0,521022 0,493678 -1,05539 0,2966 Slope 0,0034746 0,000408497 8,50582 0,0000 10 Análisis de la Varianza Fuente Suma de cuadrados Df Media cuadrática F-Ratio P-Valor Modelo 170,134 1 170,134 72,35 0,0000 Residual 110,524 47 2,35157 Total (Corr.) 280,657 48 Coeficiente de Correlación = 0,778587 R-Cuadrado = 60,6197 percent Error Standard de Estimación = 1,53348 Valores Predichos 95,00% 95,00% Predicted Prediction Limits Confidence Limits X Y Lower Upper Lower Upper 292,0 0,493561 -2,68981 3,67693 -0,291802 1,27892 582,0 1,5012 -1,64218 4,64457 0,898078 2,10431 1097,0 3,29061 0,174298 6,40693 2,84975 3,73147 1428,0 4,44071 1,31154 7,56987 3,91669 4,96473 2189,0 7,08488 3,83875 10,331 6,07478 8,09497 Plot of Fitted Model Residual Plot Studentized residual 15 YKW 12 9 6 3 0 0 1 2 3 4 (X 1000) XKWH 4,9 2,9 0,9 -1,1 -3,1 0 10 20 30 40 50 row number Histogram for SRESIDUALS Box-and-Whisker Plot 24 frequency 20 16 12 8 4 0 -3,1 -2,1 -1,1 -0,1 0,9 SRESIDUALS 1,9 2,9 -3,3 -2,3 -1,3 -0,3 0,7 1,7 2,7 SRESIDUALS Explicar los resultados de la salida del ordenador en los siguientes aspectos a. Modelo de regresión b. Hacer el contraste de regresión: Hallar la región crítica y el p valor c. Intervalo de confianza para el intercept d. Explicar el significado de R-cuadrado e. En la tabla de predicción ,explicar el significado de los dos intervalos proporcionados e. ¿Qué se desprende del análisis de los residuos? ¿Crees que el modelo está bien ajustado? SOLUCION a. El modelo de regresión ajustado es Y = 0,00347 X – 0,521 H 0 : β1 = 0 Contrastamos si existe relación lineal entre las b. Contraste de regresión H 1 : β1 ≠ 0 βˆ S n variables. El estadístico de contraste es T = 1 x que sigue una distribución t con n-2 Sˆ R 11 grados de libertad, bajo la hipótesis nula. Según los datos proporcionados por la salida de la Sˆ R regresión = 0.000408497 y βˆ1 = 0.0034746 . El valor del estadístico t también Sx n proporcionado es 8,5058152. La región crítica al nivel 0,05 viene dada por T > t 0, 025, 47 , buscando en las tablas t 0,025, 47 ≈ 2,021 . El valor de t está dentro de la región crítica y c. rechazamos la hipótesis nula y admitimos que existe relación lineal entre las variables. El pvalor viene dado por la fórmula P( t 47 > 8,505) = 0 . ( βˆ 0 − β 0 ) n El estadístico que se utiliza es que sigue una distribución t con n-2 grados de 2 X Sˆ R 1 + 2 SX libertad. El βˆ 0 − t 0, 025, 47 valores d. e. intervalo X2 Sˆ R 1 + 2 SX n de ≤ β 0 ≤ βˆ 0 + t 0,025, 47 βˆ 0 = −0,521022 n nivel X2 Sˆ R 1 + 2 SX X2 Sˆ R 1 + 2 SX y al n 0,05 viene dado por . Las salidas nos proporcionan los = 0,493686 , sustituyendo obtenemos − 1,5187 ≤ β 0 ≤ 0,4767 VE ; VE= Variación explicada por la regresión; VT = variación total R 2 = 0,606197 = VT VE = ∑ (Yi − Yˆi ) 2 ; VT = ∑ (Yi − Y ) 2 . El 60% de la variación de nuestros datos está explicada por la regresión. Intervalo de predicción: Estimamos el valor de la variable dependiente Y para un valor de la variable independiente X. Intervalo de estimación: Estimamos el valor de la media de la variable Y para un valor de la variable X. El intervalo de predicción es más amplio −1 Intervalo de predicción yˆ ± t Sˆ 1 + nˆ , Intervalo de estimación yˆ ± t Sˆ / nˆ h α 2 donde nˆ h = f. confianza n ⎛X −X 1 + ⎜⎜ h ⎝ SX ⎞ ⎟⎟ ⎠ 2 R h h α R h 2 valor muestral equivalente. Como estos intervalos son al 95% α = 0,05 Residuos. No se observa ninguna anomalía en el plot de los valores ajustados ni en el de los residuos, sin embargo en el diagrama de cajas se observa cierta asimetría y en el histograma se aprecia que los valores de los residuos se alejan de lo que cabría esperar para una variable normal. En el modelo de regresión se observa que el contraste de la ordenada en el origen tiene un p-valor cercano a 0,3 con lo que aceptaríamos la hipótesis nula de que esta vale 0. Convendría hacer un nuevo análisis de regresión con esta ordenada igual a 0 y ver si los resultados son mejores. 12 INGENIERIA QUIMICA: EXAMEN DE ESTADÍSTICA, SEGUNDO CURSO. 16 de febrero de 2000 1.- En un proceso de fabricación industrial se utilizan 10 máquinas. Estas máquinas funcionan independientemente unas de otras durante un tiempo que sigue una ley exponencial de media 100 horas. El proceso de fabricación se detiene cuando hay más de 8 máquinas sin funcionar. (La fabricación sigue si funcionan al menos dos máquinas) a) Calcular la probabilidad de que una máquina se averíe antes de 98 horas. b) Calcular la probabilidad de que se detenga el proceso de fabricación antes de 98 horas c) ¿Cuantas máquinas necesitaríamos para asegurarnos que el proceso de fabricación no se detendrá antes de 98 horas con una probabilidad mayor que 0,9? Solución: Sea X la variable que mide el tiempo de funcionamiento de una máquina cualquiera. 1 98 98 − 1 −100 x P ( X < 98) = ∫ e dx = 1 − e 100 = 0,625 100 0 El proceso de fabricación se detiene si de las 10 máquinas se averían más de 8 antes de 98 horas. Sea Xi =1 si la máquina i se avería antes de 98 horas. P(Xi=1) = 0,625. El número de 10 máquinas averiadas es Z = ∑i =1 X i . Z tiene una distribución binomial. P (se detenga el proceso) = ⎛10 ⎞ 9 10 P ( Z > 8) = P ( Z = 9) + P( Z = 10) = ⎜⎜ ⎟⎟(0,625) 0,375 + (0,625) = 0,055 + 0,009 = 0,0637 ⎝9⎠ Con n=10 la probabilidad de que no se detenga el proceso es 1-0,0637=0,9363; este n nos asegura el resultado. Si n=9 P (se detenga el proceso) ⎛9⎞ 9 8 = P ( Z = 9) + P( Z = 8) = (0,625) + ⎜⎜ ⎟⎟(0,625) 0,375 = 0,015 + 0,079 = 0,0193 . ⎝8⎠ P (no se detenga el proceso) = 1 – 0,0193 = 0,9807 Si n=8, esta probabilidad es ⎛8⎞ 8 7 = P ( Z = 8) + P( Z = 7) = (0,625) + ⎜⎜ ⎟⎟(0,625) 0,375 = 0,023 + 0,111 = 0,135 ⎝7⎠ Por tanto n=9. 2.- Supongamos que tres fábricas A, B y C vierten productos al río Pisuerga en una proporción 0,3 0,5 0,2. Estos vertidos son tóxicos con probabilidades 0,05 0,01 y 0,1 respectivamente. a) Calcular la probabilidad de un vertido tóxico al río Pisuerga. b) Si se detecta un vertido tóxico en el río, calcular la probabilidad de que este provenga de cada una de las tres fábricas. c) Si se han detectado en el último año 10 vertidos tóxicos, calcular la probabilidad de que 5 sean de A 3 de B y 2 de C. Solución: Por la regla de la probabilidad total. P (vertido tóxico) = P (tóxico/A) P(A) + P (tóxico/B) P (B) + P (tóxico/C) P(C) = 0,05x0,3 + 0,01x0,5 + 0,1x0,2= 0,04 Por la regla de Bayes 13 P(A/tóxico)= P (tóxico/A) x P(A)/P (tóxico) = 0,015/0,04 = 0,375; P (B/tóxico) = 0,005/0,04 = 0,125; P(C/tóxico) = 0,02/0,04 = 0,5. Si se han detectado 10 vertidos tóxicos ⎛10 ⎞⎛ 5 ⎞ 5 3 2 P (5deA,3deB,2deC ) = ⎜⎜ ⎟⎟⎜⎜ ⎟⎟(0,375) (0,125) (0,5) = 0,024 ⎝ 5 ⎠⎝ 3 ⎠ 3.- El diámetro de una arandela tiene una distribución normal de media 0,2 pulgadas. Las especificaciones requieren que el diámetro está entre 0,14 y 0,26 pulgadas con probabilidad 0,9973. a) Calcular la desviación estándar. b) Si se conoce que la varianza es de 0,0016 pulgadas, calcular el valor de las especificaciones. Solución: Sea X la variable que mide el diámetro de la arandela P (0,14 < X <0,26) = 0,9973.Tipificamos la variable P( 0,14 − 0,2 σ ≤ X − 0,2 σ ≤ 0,26 − 0,2 σ ) = P( − 0,06 σ ≤Z≤ 0,06 σ ) = P(− z ≤ Z ≤ z ) = Φ( z ) − Φ(− z ) = 2Φ ( z ) − 1 = 0,9973 Φ( z ) = 1,9973 / 2 = 0,99865 Buscando en las tablas z = 3; σ = 0,06 / 3 = 0,02 Si se conoce que la varianza es 0,0016 la desviación estándar es 0,04 P( a − 0,2 X − 0,2 b − 0,2 ) = P (− z ≤ Z ≤ z ) = 2Φ ( z ) − 1 = 0,9973 , como antes z =3 ≤ ≤ 0,04 0,04 0,04 b = 0,04x3 +0,2 =0,32; a = 0,2-0,04x3 = 0,08. Las especificaciones son que el diámetro está comprendido entre 0,08 y 0,32 con probabilidad 0,9973 También seria correcto P( 0,14 − 0,2 X − 0,2 0,26 − 0,2 ≤ ≤ ) = P (−1,5 ≤ Z ≤ 1,5) = 2Φ (1,5) − 1 = 2 x0,93943 − 1 = 0,87886 0,04 0,04 0,04 Las especificaciones son que el diámetro está comprendido entre 0,14 y 0,26 con probabilidad 0,87886. 4.- Dada una población N (μ, 2,5). Se realiza el siguiente contraste de hipótesis H 0 : μ = 50 obteniéndose los siguientes resultados. H :1 μ ≠ 50 Región de aceptación 48,5 < x < 51,5 48 < x < 52 48,5 < x < 51,5 48 < x < 52 Tamaño de la α muestra 10 10 0,02 16 0,02 16 β para μ =52 βpara μ=50,5 0,2327 0,89 0,5 0,9918 a) Rellenar los datos que faltan en la tabla y dar los resultados del contraste. b) Con los datos proporcionados ¿podrías obtener un intervalo de confianza para la media? c) Para α=0,05 ¿Qué tamaño de muestra nos asegura una potencia de 0.9 para μ=52? Solución: 14 Es un contraste de hipótesis sobre la media de una población normal con varianza conocida. X − μ0 El estadístico que se utiliza para el contraste es Z 0 = . La región de aceptación al σ/ n nivel α viene dada por X ∈ μ 0 ± zα / 2σ / n . Para la primera fila de la tabla, zα / 2σ / n = 1,5 de donde deducimos que zα / 2 = 1,5 n / σ = 1,5 10 / 2,5 = 1,8973 . Buscando en las tablas, Φ(1,89)=0,97; es decir α/2=0,03. Luego α= 0,06. También se puede hacer X − 50 48,5 − 50 51,5 − 50 α = 1 − P(48,5 ≤ X ≤ 51,5 / μ = 50) = 1 − P( ≤ ≤ / μ = 50) = 2,5 / 10 2,5 / 10 2,5 / 10 1 − Φ (1,897) + Φ (−1,897) = 1 − 0,97 + 1 − 0,97 = 0,06 En la segunda fila zα / 2 = 2 n / σ = 2 10 / 2,5 = 2,529 ; Φ(2,53)=0,99; α = 2 x 0,01=0,02. En la tercera fila zα / 2 = 1,5 n / σ = 1,5 16 / 2,5 = 2,4 ; Φ(2,4)=0,99; α =2 x 0,01=0,02. En la cuarta fila zα / 2 = 2 n / σ = 2 16 / 2,5 = 3,2 ; Φ(3,2)=0,99931; α=2 x 0,00069=0,00138. Para calcular el errorβ, este se define como la probabilidad de aceptar la hipótesis nula para un valor de μ. En la primera fila X − 52 48,5 − 52 51,5 − 52 β = P(48,5 ≤ X ≤ 51,5 / μ = 52) = P( ≤ ≤ / μ = 52) = 2,5 / 10 2,5 / 10 2,5 / 10 Φ (−0,63) − Φ (−4,27) = 1 − Φ (0,63) = 1 − 0,7673 = 0,2327 48 − 52 En la segunda fila β = Φ (0) − Φ ( ) = 1 / 2 − Φ (−5,05) = 1 / 2 2,5 / 10 En la tercera fila 51,5 − 52 48,5 − 52 β = Φ( ) − Φ( ) = Φ (−0,8) − Φ (−5,6) = 1 − 0,7881 = 0,2119 2,5 / 16 2,5 / 16 52 − 52 48 − 52 ) − Φ( ) = 1/ 2 En la cuarta fila β = Φ ( 2,5 / 16 2,5 / 16 Para la última columna μ = 50,5. En la primera fila 51,5 − 50,5 48,5 − 50,5 ) − Φ( β = Φ( ) = Φ(1,264) − Φ (−2,529) = 0,8962 − (1 − 0,9944) = 0,89 2,5 / 10 2,5 / 10 En la segunda fila 52 − 50,5 48 − 50,5 ) − Φ( β = Φ( ) = Φ (1,897) − Φ (−3,16) = 0,97062 − (1 − 0,9992) = 0,969 2,5 / 10 2,5 / 10 51,5 − 50,5 48,5 − 50,5 ) − Φ( ) = Φ (1,6) − Φ (−3,2) = 0,9452 En la tercera fila β = Φ ( 2,5 / 16 2,5 / 16 52 − 50,5 48 − 50,5 ) − Φ( ) = Φ (2,4) − Φ (−4) = 0,9918 En la cuarta fila β = Φ ( 2,5 / 16 2,5 / 16 15 Para poder dar un intervalo de confianza para la media, necesitaríamos la media muestral y esta no se puede calcular con los datos suministrados. Para α = 0,05 zα / 2 = 1,96 , la región de aceptación es X ∈ 50 ± 1,96 x 2,5 / n . Si la es mayor de 0,9, el error β es menor de 0,1 50 − (4,9 / n) − 52 50 + (4,9 / n ) − 52 β = Φ( ) − Φ( ) < 0,1 2,5 / n 2,5 / n Calculamos la distancia entre la hipótesis nula y μ d = (52 − 50) / 2,5 = 0,8. Buscando en las gráficas OC n está comprendido entre 15 y 30. Si n = 15 50 − (4,9 / 15) − 52 50 + (4,9 / 15 ) − 52 β = Φ( ) = Φ (−1,138) − Φ (−5,05) = 1 − 0,87 = 0,13 ) − Φ( 2,5 / 15 2,5 / 15 Si n =16 potencia β = Φ( 50 + (4,9 / 16 ) − 52 2,5 / 16 ) − Φ( 50 − (4,9 / 16) − 52 2,5 / 16 ) = Φ (−1,24) − Φ (−5,16) = 1 − 0,8925 = 0,1075 Si n =17 β =Φ(-1,338)= 1- 0,908= 0,0092. Luego n =17. 5.- Se dispone de los siguientes datos que miden el porcentaje de algodón en un material utilizado para la fabricación de camisas de caballero. 34,2 33,6 33,8 34,7 37,8 32,6 35,8 34,6 33,1 34,7 34,2 33,6 33,1 37,6 36,6 33,6 34,5 35 33,4 32,5 35,4 34,6 37,3 34,1 35,6 35,4 34,7 34,1 34,6 35,9 34,6 34,7 36,3 36,2 34,6 35,1 33,8 34,7 35,5 35,7 35,1 36,8 35,2 36,8 37,1 33,6 32,8 36,8 34,7 35,1 35 37,9 34 32,9 32,1 34,3 33,6 35,3 34,9 36,4 34,1 33,5 34,5 32,7 Estos datos se han procesado con el paquete Statgraphics, y obtenido los siguientes resultados. variable: Porcentaje de algodón 64 valores desde 32,1 a 37,9 Percentiles n = 62 1,0% = 32,1 Media = 34,7984 5,0% = 32,7 Mediana = 34,7 10,0% = 33,1 Moda = 34,7 25,0% = 33,8 Varianza = 1,86079 50,0% = 34,7 Desviación Standard = 1,36411 75,0% = 35,55 Mínimo 32,1 90,0% = 36,8 Máximo = 37,9 95,0% = 37,3 Rango = entre 32,1 y 37,9 99,0% = 37,9 Primer Cuartil = 33,8 Tercer Cuartil = 35,55 Rango InterCuartilico = 1,75 Coef. Asimetría = 1,21312 Coef. Apuntamiento = -0,442764 16 Tabla de distribución de frecuencias ----------------------------------------------------------------------------------------------------------------------Limite Limite Marca de Frecuencia Frecuencia Frecuencia Clase Inferior Superior Clase Frecuencia Relativa Acumulada Rel. Acu. ----------------------------------------------------------------------------------------------------------------------Menor 32,0 0 0,0000 0 0,0000 1 32 33,0 32,5 6 0,0938 6 0,0938 2 33,0 34,0 33,5 12 0,1875 18 0,2813 3 34,0 35,0 34,5 22 0,3438 40 0,6250 36,0 35,5 12 0,1875 52 0,8125 4 35 5 36,0 37,0 36,5 7 0,1094 59 0,9219 6 37,0 38,0 37,5 5 0,0781 64 1,0000 mayor38,0 0 0,0000 64 1,0000 igual ----------------------------------------------------------------------------------------------------------------------Media = 34,7984 Desviación Standard = 1,36411 Diagrama de tallo-hojas: unidad = 0,1 1|2 representa 1,2 1 32|1 6 32|56789 9 33|114 17 33|56666688 24 34|0111223 (14) 34|55666667777779 26 35|001112344 17 35|56789 12 36|234 9 36|6888 5 37|13 3 37|689 Histograma Diagrama de cajas 24 Frecuencia 20 16 12 8 4 0 32 32 33 34 35 36 37 porcentaje de algodón 38 33 34 35 36 37 38 Porcentaje de algodón Se pide. a) Rellenar los huecos en los estadísticos resumen y en la tabla de frecuencias. (no hace falta hacer ningún cálculo) b) Explicar brevemente las salidas de texto y los gráficos 17 INGENIERIA QUIMICA: EXAMEN DE ESTADISTICA 11 de setiembre de 2000 1.- Para cada una de las siguientes variables, indicar si son cualitativas o cuantitativas justificando la respuesta. (1 punto) El resultado de lanzar una moneda al aire. Cualitativa, dos posibles resultados cara y cruz El número de calorías de una comida. Cuantitativa, toma valores numéricos. El partido votado en las últimas elecciones. Cualitativa, toma los valores de los partidos presentados. El tiempo de duración de una película de dibujos animados. Cuantitativa. La espera en el aeropuerto para un embarque. Cuantitativa La temperatura media a la que una reacción química tiene lugar. Cuantitativa. La concentración media de ozono en el aire. Cuantitativa. La proporción de desempleados. Cuantitativa. La nota media de los exámenes de estadística. Cuantitativa. El número de goles en un partido de fútbol. Cuantitativa, discreta, toma solo valores naturales. 2.- Opina si las siguientes conclusiones son acertadas, justificando tu respuesta. (1 punto) Un agente de la propiedad observa que el precio medio de las casas del centro de Valladolid es de 30 millones y por tanto concluye que la mitad de las casa del centro cuestan menos de 30 millones. Falso, está confundiendo la media con la mediana. Un viajante calcula que el coste medio de los últimos 5 viajes ha sido de 20.000 pesetas y concluye que el coste total es de 100.000 pesetas. Verdadero, ya que coste medio = suma de todos los gastos/5. El contable de una empresa piensa que se ha confundido ya que ha llegado a la conclusión de que el 90% de los empleados gana menos que el salario medio. No se ha confundido, ya que pocos valores muy altos de la variable hacen subir la media. Una vendedora de helados concluye que más de la mitad de helados vendidos son de chocolate porque la moda cuando se elige entre 10 sabores diferentes es el sabor a chocolate. Falso, está confundiendo moda con mediana, la conclusión sería verdadera si solo hubiera dos gustos diferentes. 3.- En una factoría se producen piezas que se empaquetan en tres tipos diferentes de cajas con 15 unidades cada una en proporción 1/2 , 1/3, 1/6. Las cajas de tipo I contienen 3 unidades defectuosas, las de tipo II , 5 defectuosas y las de tipo III, 6 defectuosas. Se elige una caja al azar y se extraen 3 unidades resultando una de ellas defectuosa y 2 buenas. ¿Qué tipo de caja tiene mayor probabilidad de ser la elegida? (1.5 puntos). Solución: P (I)=1/2, P (II)=1/3, P (III)=1/6. I ={3D,12B}, II ={5D, 10B}, III ={6D,9B} 18 ⎛12 ⎞ 3.⎜⎜ ⎟⎟ 2 P (1B,2 D / I ) = ⎝ ⎠ = 0,435, ⎛15 ⎞ ⎜⎜ ⎟⎟ ⎝3⎠ ⎛10 ⎞ 5.⎜⎜ ⎟⎟ 2 P(1B,2 D / II ) = ⎝ ⎠ = 0,4945, ⎛15 ⎞ ⎜⎜ ⎟⎟ ⎝3⎠ ⎛9⎞ 6.⎜⎜ ⎟⎟ 2 P(1B,2 D / III ) = ⎝ ⎠ = 0,4747, ⎛15 ⎞ ⎜⎜ ⎟⎟ ⎝3⎠ Por la regla de la probabilidad total P (1D,2B)= 0,435.1/2 + 0,4945.1/3 + 0,4747. 1/6=0,4615. Por la regla de Bayes P( I / 1D,2B) = P(1D,2 B / I ) P( I ) = 0,4714 P (1D,2 B) Análogamente P (II/1D,2B)=0,3571, P (III/1D,2B)=0,0571. Luego la respuesta es la caja 1. 4.- Si se supone que el 4% de la población es zurda. Aproximar la probabilidad de que en una clase de 71 estudiantes todos sean diestros. Aproximar la probabilidad de que haya al menos 2 zurdos. (1.5 puntos) Solución: Sean Xi variables de Bernoulli con parámetro p=0,04 . Sea X la variable que cuenta el número de personas zurdas en 71, X sigue una distribución binomial de parámetros 71 y 0,04. En nuestro caso n.p=2,84. Por lo que la podemos aproximar por una variable de Poisson de parámetro 2,84. Buscamos en las tablas la distribución de Poisson de parámetro 2,8 P(X=0)≅0.06, P(X≥2)=1-P(X≤1)≅1-0.231=0.769 5.- En un análisis de regresión se ha obtenido los siguientes resultados Análisis de Regresión – Modelo lineal: Y = a + b*X Variable Dependiente: Col_4 Variable Independiente: Col_3 Standard T Parameter Estimate Error Statistic P-Value Intercept -1967,37 259,597 -7,57857 0,0000 Slope 446,309 16,4418 27,1447 0,0000 ---------------------------------------------------------------------------------------Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 7,96197E7 1 7,96197E7 736,83 0,0000 Residual 1,29668E6 12 108057,0 ---------------------------------------------------------------------------------------Total (Corr.) 8,09164E7 13 Correlation Coefficient = 0,991955 R-squared = 98,3975 percent Standard Error of Est. = 328,72 Hacer el contraste de regresión. Dar un intervalo de confianza para la ordenada en el origen al 5%. (2 puntos). Solución: Contraste de regresión T0 = βˆ1 var(βˆ1 ) H 0 : β1 = 0 H1 : β1 ≠ 0 Para hacer este contraste se utiliza el estadístico que bajo la hipótesis nula sigue una distribución T con 12 grados de libertad. La región crítica al nivel 0,05 viene dada por ⏐T0⏐>t0,025,12 =2,179. De las salidas del ordenador sabemos que t =446,309/16,4418 =27,1447 que está en la región crítica, por 19 tanto rechazamos la hipótesis nula y llegamos a la conclusión de que existe relación lineal entre las variables. El intervalo de confianza para β0 viene dado por la fórmula βˆ0 ± t0,025,12 var(β 0 ). Es decir –1.967,37±2,179.259,597, dando como resultado. –2.533,0319 ≤ β0 ≤ -1401,7081. 6.- Se han procesado las notas del examen y de prácticas de la asignatura de Estadística con el paquete statgraphics, obteniéndose las siguientes salidas. Se pide explicar las salidas producidas por el ordenador y las conclusiones a las que nos lleva el estudio estadístico. (3 puntos) Solución: De las tablas de distribución de frecuencias, se observa que la variable prácticas es más homogénea, tiene menos variabilidad, los valores están concentrados entre el 5 ,5 y el 7,5, mientras en las notas de junio están algo mas dispersa en torno a estos valores. También se ve esta mayor dispersión en los cuartiles y el rango intercuartilico que es mayor en junio. Mirando a los percentiles de las dos variables se podría decir que la nota de prácticas es más alta que la de junio. Frequency Tabulation for junio Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency At or below 2,0 0 0,0000 0 0,0000 1 2,0 3,0 2,5 4 0,0870 4 0,0870 2 3,0 4,0 3,5 8 0,1739 12 0,2609 3 4,0 5,0 4,5 6 0,1304 18 0,3913 4 5,0 6,0 5,5 9 0,1957 27 0,5870 5 6,0 7,0 6,5 9 0,1957 36 0,7826 6 7,0 8,0 7,5 7 0,1522 43 0,9348 7 8,0 9,0 8,5 3 0,0652 46 1,0000 Above 9,0 0 0,0000 46 1,0000 Mean = 5,55217 Standard deviation = 1,70434 Frequency Tabulation for prácticas Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency at or below 1,5 0 0,0000 0 0,0000 1 1,5 2,5 2,0 3 0,0652 3 0,0652 2 2,5 3,5 3,0 1 0,0217 4 0,0870 3 3,5 4,5 4,0 3 0,0652 7 0,1522 4 4,5 5,5 5,0 5 0,1087 12 0,2609 5 5,5 6,5 6,0 10 0,2174 22 0,4783 6 6,5 7,5 7,0 16 0,3478 38 0,8261 7 7,5 8,5 8, 0 5 0,1087 43 0,9348 8 8,5 9,5 9,0 3 0,0652 46 1,0000 above 9,5 0 0,0000 46 1,0000 Mean = 6,19565 Standard deviation = 1,73358 -One-Variable Analysis - junio Analysis Summary One-Variable Analysis - practicas Analysis Summary 20 Data variable: junio 46 values ranging from 2,6 to 9,0 Summary Statistics for junio Count = 46 Average = 5,55217 Median = 5,45 Variance = 2,90477 Standard deviation = 1,70434 Minimum = 2,6 Maximum = 9,0 Range = 6,4 Lower quartile = 4,0 Upper quartile = 6,9 Interquartile range = 2,9 Stnd. skewness = -0,0150496 Stnd. kurtosis = -1,29393 Data variable: practicas 46 values ranging from 2,0 to 9,0 Summary Statistics for practicas Count = 46 Average = 6,19565 Median = 7,0 Variance = 3,00531 Standard deviation = 1,73358 Minimum = 2,0 Maximum = 9,0 Range = 7,0 Lower quartile = 5,0 Upper quartile = 7,0 Interquartile range = 2,0 Stnd. skewness = -2,35487 Stnd. kurtosis = 0,844995 Percentiles for junio 1,0% = 2,6 5,0% = 2,8 10,0% = 3,1 25,0% = 4,0 50,0% = 5,45 75,0% = 6,9 90,0% = 7,8 95,0% = 8,3 99,0% = 9,0 Percentiles for practicas 1,0% = 2,0 5,0% = 2,0 10,0% = 4,0 25,0% = 5,0 50,0% = 7,0 75,0% = 7,0 90,0% = 8,0 95,0% = 9,0 99,0% = 9,0 Stem-and-Leaf Display for junio: unit = 0,1 1|2 represents 1,2 3 2|668 5 3|01 10 3|55699 13 4|002 17 4|5578 23 5|033334 23 5|589 20 6|033 17 6|555589 11 7|0123 7 7|568 4 8|033 1 8| 1 9|0 Stem-and-Leaf Display for practicas: unit = 0,1 1|2 represents 1,2 3 4 7 12 22 (16) 8 3 2|000 3|0 4|000 5|00000 6|0000000000 7|0000000000000000 8|00000 9|000 Confidence Intervals for junio 95,0% confidence interval for mean: 5,55217 +/- 0,506127 [5,04605; 6,0583] 21 95,0% confidence interval for standard deviation: [1,41364; 2,14665] Confidence Intervals for practicas 95,0% confidence interval for mean: 6,19565 +/- 0,514812 [5,68084;6,71046] 95,0% confidence interval for standard deviation: [1,4379; 2,18349] Aquí tenemos intervalos de confianza al 95% para las medias y las varianzas de las dos variables. Para las medias, ambos intervalos se solapan, pero el de prácticas está mas a la derecha, evidenciando que la nota de prácticas es más alta. Para la varianza los intervalos de confianza son bastante similares con lo que la dispersión de las dos variables parece ser la misma. Box-and-Whisker Plot Histograma de practicas frequency 16 12 8 4 0 0 2 4 6 8 10 1,5 2,5 3,5 practicas 4,5 5,5 6,5 7,5 8,5 9,5 practicas Box-and-Whisker Plot Histograma de junio 10 frequency 8 6 4 2 0 2,6 4,6 6,6 junio 8,6 10,6 2 3 4 5 6 7 8 9 junio Aquí tenemos un histograma y un diagrama de cajas para las dos variables. De los histogramas no puede decirse que las dos variables sean normales, sobre todo la variable prácticas. Esto ya se podía haber dicho con el coeficiente de asimetría que toma el valor – 2,35 evidenciando asimetría hacia la izquierda. En los diagramas de cajas se ve el menor rango intercuartilico de la variable práctica y también el mayor valor de la media y la mediana de esta variable, así como la falta de simetría. Two-Sample Comparison - junio & prácticas Comparison of Means 95,0% confidence bound for mean of junio: 5,55217 - 0,422026 [5,13015] 95,0% confidence bound for mean of prácticas: 6,19565 - 0,429268 [5,76638] 95,0% confidence bound for the difference between the means Assuming equal variances: -0,643478 - 0,595717 [-1,23919] t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 > mean2 Assuming equal variances: t = -1,79521 P-value = 0,962012 22 Comparison of Standard Deviations Junio prácticas Standard deviation 1,70434 1,73358 Variance 2,90477 3,00531 Df 45 45 Ratio of Variances = 0,966546 95,0% Confidence Intervals Standard deviation of junio: [1,41364;2,14665] Standard deviation of prácticas: [1,4379;2,18349] Ratio of Variances: [0,534811;1,7468] F-test to Compare Standard Deviations Null hypothesis: sigma1 = sigma2 Alt. hypothesis: sigma1 NE sigma2 F = 0,966546 P-value = 0,909639 Con estos procedimientos contrastamos lo que nos parece haber visto en los datos mediante el estudio descriptivo. Primeramente calculamos un intervalo de confianza para la diferencia de medias. Este intervalo depende de si las varianzas son iguales o distintas. El procedimiento empleado es el suponer varianzas iguales, que después se verá que es la hipótesis acertada. El intervalo de confianza es in intervalo superior dado por diferencia de medias es mayor que –1,239, ya que la hipótesis que se contrasta a continuación es si la media de junio es menor o igual que la media de practicas contra la alternativa de que es mayor. El ordenador nos da el valor del estadístico T utilizado en el contraste para nuestras muestras y el p valor. Como el p valor es muy grande, aceptamos la hipótesis nula a cualquier nivel, es decir la nota media de junio es menor o igual que la nota media de prácticas. Finalmente se hace un contraste de varianzas, las salidas nos ofrecen un intervalo de confianza para el cociente de varianzas y el valor del estadístico F para nuestra muestra y el p-valor que también en este caso es muy grande y se acepta la hipótesis nula de que las varianzas son iguales. Esta hipótesis ya la habíamos utilizado anteriormente. 23 INGENIERIA QUIMICA: EXAMEN DE ESTADISTICA 10 de febrero de 2001 1.- Para cada uno de los siguientes experimentos, indicar la distribución de la variable resultante justificando la respuesta. (1 punto) El resultado del lanzamiento de un dado. Es una variable discreta que toma los valores 1,2,3,4,5 y 6 con probabilidad 1/6 cada uno de ellos Sacar una pieza de un lote y anotar si es buena o defectuosa. Es una variable de Bernoulli que toma los valores 0 o 1 según que la pieza sea buena defectuosa con probabilidades 1-p y p siendo p la proporción de piezas defectuosas. El número de piezas defectuosas al inspeccionar 20 piezas de un lote grande Es una variable que se puede aproximar por una binomial de parámetros 20 y p, siendo p la proporción de piezas defectuosas. La temperatura media nocturna de Valladolid en el mes de julio. Es una variable continua cuya distribución se podrá aproximar por una normal 2.- En una encuesta se plantea la siguiente pregunta ¿Conoces a algún hombre que vaya a la compra normalmente? Al procesarla se comprueba que el 90% de los preguntados responde que si, y por lo tanto se concluye que el 90% de los hombres realiza la compra normalmente. (1punto) A) Opina si la conclusión es acertada, justificando tu respuesta. De la pregunta de la encuesta se concluye que el 90% de los encuestados conoce a algún hombre que vaya a la compra (todos pueden conocer al mismo), por tanto la conclusión es errónea. B) Se presenta el resumen de los datos de la siguiente forma Numero de encuestados = 10000 media = 0.9008 Desviación estándar = 0.298945 ¿Es una presentación acertada? La variable que se está estudiando es una variable cualitativa con respuestas si y no, por tanto no tiene sentido calcular ni su media ni su desviación estándar. La presentación de los datos no es acertada. 3.- Tres máquinas fabrican piezas en serie siendo sus producciones horarias de 5000, 6000 y 4000 piezas respectivamente. Las proporciones de defectuosas son 0.05, 0.08 y 0.01; De la producción de un día se seleccionan dos piezas que resultaron buenas. Calcular la probabilidad de que ambas procedan de la misma máquina (1 punto). Se supone que el número de piezas de que disponemos es lo suficientemente grande como para considerar que la selección de la primera pieza es independiente de la selección de la segunda. Solución Sean M1, M2 y M3 las tres máquinas. P (M1)=5/15; P (M2)=6/15; P (M3)=4/15: Al extraer dos piezas se pueden dar las siguientes elecciones de máquinas con probabilidad P (M1, M1)= (5/15) x (5/15); P (M1, M2)= (5/15) x (6/15); P (M1, M3)= (5/15) x (4/15); P (M2, M1)= (6/15) x (5/15); P (M2, M2)= (6/15) x (6/15); P (M2, M3)= (6/15) x (4/15); P (M3, M1)= (4/15) x (5/15); P (M3, M2)= (4/15) x (6/15); P (M3, M3)= (4/15) x (4/15); El resultado de la selección de las piezas depende de la elección de las máquinas. Denotamos por B pieza buena P (BB/M1, M1) = 0.95 x0.95; P (BB/M1, M2) = 0.95 x0.92; P (BB/M1, M3) = 0.95 x0.99; P (BB/M2, M1) = 0.92 x0.95; P (BB/M2, M2) = 0.92 x0.92; P (BB/M2, M3) = 0.92x0.99; P (BB/M3, M1) = 0.99 x0.95; P (BB/M3, M2) = 0.99 x0.92; P (BB/M3, M3) = 0.99 x0.99; 24 La probabilidad de que las dos piezas extraídas sean buenas viene dada por la suma P(BB)= P(BB/M1,M1)x P(M1,M1)+ P(BB/M1,M21)x P(M1,M2)+ P(BB/M1,M3)x P(M1,M3)+P(BB/M2,M1)x P(M2,M1)+ P(BB/M2,M2)x P(M2,M2)+ P(BB/M2,M3)x P(M2,M3)+P(BB/M3,M1)x P(M3,M1)+ P(BB/M3,M2)x P(M3,M2)+ P(BB/M3,M3)x P(M3,M3)=0.899966 La probabilidad de que las dos piezas sean de la misma máquina viene dada por P (M1, M1/BB) +P (M2, M2/BB) +P (M3, M3/BB) = =(P(BB/M1,M1)x P(M1,M1)+ P(BB/M2,M2)x P(M2,M2)+ P(BB/M2,M2)x P(M2,M2))/P(BB)=0.33934 4.- Un auditor sospecha que el 25% de las facturas de una empresa son fraudulentas. Dispone de un millón de facturas para inspeccionar. Calcular el número de facturas que debe examinar para asegurarse que encontrará al menos una fraudulenta con una probabilidad mayor que 0.99. Justificar la aproximación realizada (1 punto) Solución: Si hay un millón de facturas 250.000 son fraudulentas y 750.000 correctas. Al examinar n facturas, si llamamos X el nº de facturas fraudulentas ⎛ 750000 ⎞ ⎟ ⎜⎜ n ⎟⎠ ⎝ P( X ≥ 1) = 1 − P( X = 0) = 1 − ⎛1000000 ⎞ ⎟⎟ ⎜⎜ n ⎠ ⎝ Aproximamos la distribución de X por una binomial de parámetros n y 0.25 P ( X = 0) = 0.250 x0.75n ≤ 0.01 Tomando logaritmos log 0.01 n≥ = 16.0078 . log 0.75 n log 0.75 ≤ log 0.01 como ambos logaritmos son negativos Por lo tanto debe examinar 17 facturas. 5.- Calcular los percentiles 5, 25, 50, 75 y 95 de una distribución BN (20, 0.05), para ello disponemos de las salidas proporcionadas por el statgraphics (1 punto) Parameters: Event prob. Successes Dist. 1 0.05 20 Dist. 2 0.2 5 Distribución: Negativa Binomial Lower Tail Area(<) Probability Mass (=) Upper Tail Area (>) Variable Dist. 1 Dist. 2 Variable Dist. 1 Dist. 2 Variable Dist. 1 Dist. 2 269 0.0499782 1.0 269 0.00157882 1.75174E-21 269 0.948443 0.0 338 0.247116 1.0 338 0.00408192 9.05034E-28 338 0.748802 0.0 394 0.49991 1.0 394 0.00461729 6.27861E-33 394 0.495473 0.0 455 0.74921 1.0 455 0.00332881 1.37373E-38 455 0.247461 0.0 554 0.949908 1.0 554 0.000943347 7.71827E-48 554 0.049149 0.0 Solución: Como es una distribución B (20,0.05) debemos utilizar los resultados calculados para la distribución 1. Vamos a denotar por X la variable con esta distribución. Si Percentil 5 = a por definición P( X ≤ a) ≥ 0.05 ; P( X ≥ a) ≥ 0.95 P ( X ≤ 269) = 0.049978 + 0.001578 = 0.051556 ≥ 0.05 P ( X ≥ 269) = 0.948443 + 0.001578 = 0.950021 ≥ 095 Por tanto el percentil 5 es 269. El percentil 25 es 338 ya que 25 P ( X ≤ 338) = 0247116 + 0.00408192 ≥ 0.25 P ( X ≥ 338) = 0.748802 + 0.00408192 ≥ 0.75 El percentil 50 es 394 ya que P ( X ≤ 394) = 049991 + 0.0046172 ≥ 0.5 P ( X ≥ 394) = 0.495473 + 0.00461729 ≥ 0.5 El percentil 75 es 455 ya que P ( X ≤ 455) = 0.74921 + 0.00332881 ≥ 0.75 P ( X ≥ 455) = 0.247461 + 0.00332881 ≥ 0.25 El percentil 95 es 554 ya que P ( X ≤ 554) = 0.949908 + 0.000943347 ≥ 0.95 P ( X ≥ 554) = 0.049149 + 0.000943347 ≥ 0.05 6.- En un análisis de regresión se han obtenido los siguientes resultados (2 puntos) Regression Analysis - Linear model: Y = a + b*X Dependent variable: accel Independent variable: weight Standard T Parameter Estimate Error Statistic P-Value -----------------------------------------------------------------------------------Intercept 16.7875 0.927477 0.0000 Slope -0.000191326 0.000338575 -0.565094 0.5728 ----------------------------------------------------------------------------------Analysis of Variance -------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value -----------------------------------------------------------------------------------Model 1 2.03717 0.5728 Residual 976.065 6.37951 --------------------------------------------------------------------------------------Total (Corr.) 978.102 154 Correlation Coefficient = -0.0456375 R-squared = Standard Error of Est. = Rellenar los huecos que faltan : El valor del estadístico T para la ordenada en el origen, la suma de los cuadrados del modelo, el valor del estadístico F, los grados de libertad de los residuos, el valor de R2 y el valor del error estándar de estimación. Solución: T= 16.7875/0.927477=18.1001793 VT =VE + VNE; VE = VT- VNE =978.102-976.065=2.037 F =(VE/1)/(VNE/153)=2.037/6.37951=0.3193 Los residuos tienen 153 grados de libertad R2= VE/VT =2.037/978.102=0.0020825 Error estándar de estimación VNE = 6.37951 = 2.525769 153 ¿A la vista de los resultados, creéis que hay una relación lineal entre las dos variables analizadas? El p-valor para el contraste de hipótesis de la pendiente es 0.57, por lo tanto aceptamos la hipótesis de que la pendiente es 0 y por tanto no existe relación lineal entre las variables. El contraste F de regresión también da un p-valor de 0.57 como cabía esperar ya que ambos contrastes son equivalentes. El coeficiente R2 da un valor muy pequeño, sólo el 0.2% de la variación de los datos está explicado por la regresión. Definitivamente si existe alguna relación entre estas dos variables, no es lineal. 26 Después de realizada la regresión se ha hecho un análisis descriptivo de los residuos, obteniéndose Summary Statistics for RESIDUALS Percentiles for RESIDUALS Count = 155 Average = 8.49677E-8 1.0% = -4.97435 Variance = 6.33808 5.0% = -3.43123 Standard deviation = 2.51755 10.0% = -2.87294 Minimum = -4.99106 25.0% = -1.68098 Maximum = 8.62278 50.0% = -0.346094 Range = 13.6138 75.0% = 1.40754 Lower quartile = -1.68098 90.0% = 3.13286 Upper quartile = 1.40754 95.0% = 4.36781 Interquartile range = 3.08852 99.0% = 8.21998 Skewness = 0.780005 Kurtosis = 0.998636) Box-and-Whisker Plot Histogram for RESIDUALS 50 frequency 40 30 20 10 0 -7 -4 -1 2 5 8 11 -5 -2 1 4 7 10 RESIDUALS RESIDUALS ¿Qué se puede decir de los residuos? De los valores muestrales presentados para los residuos, no puede decirse que se aparten demasiado de las hipótesis de normalidad necesarias para la regresión. Son centrados. El primer y tercer cuartil son casi simétricos y los coeficientes de asimetría y curtosis entran dentro de los valores normales. Puede observarse en los percentiles que los superiores (90,95 y 99) son superiores en módulo que sus correspondientes inferiores (10,5 y 1) por tanto la distribución presenta asimetría a la derecha. Esta asimetría se observa en el histograma aunque no muy marcada y en el diagrama de cajas se observan valores anormalmente altos que pueden ser los que determinen esta asimetría. 7.- Se instala un nuevo dispositivo de filtrado en una unidad química. Antes de su instalación una muestra aleatoria proporcionó la siguiente información acerca del porcentaje de impurezas: tamaño muestral, 8; media muestral, 12.5; varianza muestral, 101.17. Después de la instalación se tomó otra muestra obteniéndose: tamaño muestral, 9; media muestral, 10.2; varianza muestral, 94.73. (3puntos) a) ¿Se puede concluir que las dos varianzas son iguales? Se realiza el contraste H 0 : σ1 = σ 2 El H1 : σ 1 ≠ σ 2 estadístico utilizado es S12 S 22 que bajo la hipótesis nula se distribuye según una F con 7 y 8 grados de libertad. Buscando en las tablas F0.025,7,8 = 4.53 F0.025,8,7 = 4.90 27 La región de aceptación es S12 S 22 = 1.06 que 1 S2 ≤ 12 ≤ 4.53 es 4.90 S 2 decir 0.20 ≤ S12 S22 ≤ 4.53 . En nuestro caso cae dentro de la región de aceptación, es decir aceptamos igualdad de varianzas. b) Calcular la potencia del contraste cuando el cociente de varianzas es 2. Dato F(2.2659) = 0.862761; F (0.1)=0.003265 P (2) = 1 − β (2) = 1 − P (0.20 ≤ Si S12 σ 12 =2 2 σ2 2S22 S12 S22 S12 ≤ 4.53 / σ2 σ2 σ 12 σ2 σ2 = 2) = 1 − P (0.20 22 ≤ 12 ≤ 4.53 22 / 12 = 2) = a 2 S2 σ1 σ 2 σ2 σ1 2 σ2 sigue una distribución F con 7 y 8 grados de libertad, por tanto P (2)= 1 − P(0.10 ≤ S12 2 S22 ≤ 2.2659) = 1 − F (2.2659) + F (0.10) = 1 − 0.86271 + 0.003265 = 0.140504 c) ¿Que tamaño muestral nos asegura una potencia de 0.9 cuando el cociente de varianzas es de 4? Una potencia de 0.9 corresponde a un error de segunda clase 0.1 para una distancia entre la hipótesis nula y la alternativa de 2, buscando en las curvas CO para un nivel 0.05 encontramos un tamaño maestral aproximado de 31 observaciones para las dos muestras d) Dar un intervalo de confianza para la diferencia de medias Asumiendo igualdad de varianzas la estimación de la varianza común es (7x101.17+8 x 4.73)/15=97.735.La desviación estándar es 9.886 Buscando en las tablas t0.025,15 = 2.131 ; 2.131x9.886∉(1/7+1/8)=10.9032. El intervalo de confianza al 95% para la diferencia de medias viene dado por (12.5-10.2)±10.9032 μ1 − μ 2 ∈ [−8.6,13.2] e) Están los datos de acuerdo en que se ha reducido el porcentaje de impurezas al colocar el filtro en al menos un 2%? Hacemos el contraste La región de H 0 : μ1 − μ 2 = 2 H1 : μ1 ≠ μ 2 < 2 aceptación 0.3 X −Y − 2 = = 0.05 que t= 5.116 1 1 + s 7 8 al Buscando en las tablas nivel 0.05 es T t0.05,15 = 1.753 ; >-1.753 , en nuestro caso está en la región de aceptación luego aceptamos la hipótesis de que se ha reducido el porcentaje de impurezas en al menos un 2% f) Calcular la potencia del contraste cuando la diferencia de medias es de 0. F (1,36)=0.898 P (0)=P (Rechazar la hipótesis/μ1=μ2)= X −Y − 2 X −Y 2 < −1.753 / μ1 − μ 2 = 0) = P ( < −1.753 + / μ1 − μ 2 = 0) 5.116 5.116 5.116 Si μ1=μ2 entonces X − Y sigue una distribución T con 15 grados de libertad 5.116 X −Y 2 P (0)= P( < −1.753 + ) = P(T15 < −1.36) = 1 − P (T15 < 1.36) = 1 − 0.898 = 0.102 ) 5.116 5.116 P( 28 INGENIERIA QUIMICA: EXAMEN DE ESTADISTICA.11 de setiembre de 2001 1.- Para cada uno de los siguientes experimentos, indicar la distribución de la variable resultante justificando la respuesta. (1 punto) - El resultado del lanzamiento de una moneda - Sacar una pieza de un lote grande y anotar si es aceptable o no - El número de piezas de piezas extraídas de un lote grande hasta sacar la primera defectuosa, conociendo la proporción de defectuosas - Las medidas de concentración de ozono en la calle Regalado de Valladolid 2.- Se han procesado unos datos y se han obtenido los resultados (1punto) Clase Valor Frecuencia Frecuencia Frecuencia Frec.Relativa Relativa Acumulada Acumulada 1 1.0 4 0.0741 0.0741 2 2.0 0.6111 37 0.6852 3 3.0 9 0.1667 0.8519 4 4.0 5 0.0926 51 0.9444 5 5.0 2 0.0370 53 0.9815 6 6.0 1 0.0185 1.0000 Rellena los huecos, explica que tipo de variable es y dibuja un diagrama de barras o un histograma según corresponda. 3.- Tres máquinas fabrican piezas en serie siendo sus producciones horarias de 3000, 2000 y 1000 piezas respectivamente. Las proporciones de defectuosas son 0.01, 0.03 y 0.05; De la producción de un día se selecciona dos piezas que resultan buenas. Calcular la probabilidad de que ambas procedan de la misma máquina (1 punto). 4.Un técnico de medio ambiente sospecha que el 5 % de las emisiones de gases contaminantes de una empresa química sobrepasan el mínimo de lo permitido por la ley. Calcular el número de muestras que debe tomar para asegurarse que encontrará al menos una con mayor contaminación de la permitida con una probabilidad mayor que 0.99. Justificar la aproximación realizada (1 punto). 5.- Calcular los percentiles 5, 25, 50, 75 y 95 de una distribución H (10, 15,35), para ello disponemos de las salidas proporcionadas por el statgraphics (1 punto) Distribution: Hypergeometric. Probability Mass (=) Variable Dist. 1 0 0.0178713 1 0.103104 2 0.240576 3 0.297856 4 0.215689 5 0.094903 6 0.0255116 7 0.00410007 8 0.000372734 9 0.0000170532 10 2.9234E-7 29 6. - En un análisis de regresión se ha obtenido los siguientes resultados Simple Regresión - Col_2 vs. Col_1 Regresión Análisis - Linear modelo: Y = a + b*X Dependent variable: Col_2 Independent variable: Col_1 Standard T Parameter Estimate Error Statistic P-Value Intercept -0,966824 0,00484523 -199,541 0,0000 Slope 1,54376 0,00307363 502,259 0,0000 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 1,96613 1 1,96613 252263,91 0,0000 Residual 0,0000623515 8 0,00000779394 Total (Corr.) 1,96619 9 Correlation Coefficient = 0,999984 R-squared = 99,9968 percent Standard Error of Est. = 0,00279176 Explica las salidas suministradas por el programa. Dar un intervalo de confianza para la pendiente al 5%. (2 puntos) 7.- Se instala un nuevo dispositivo de filtrado en una unidad química. Antes de su instalación una muestra aleatoria proporcionó la siguiente información acerca del porcentaje de impurezas: tamaño muestral, 9; media muestral, 10.2; varianza muestral, 94.73. Después de la instalación se tomó otra muestra obteniéndose: tamaño muestral, 8; media muestral, 12.5; varianza muestral, 94.73. (3puntos) a) ¿Se puede concluir que las dos varianzas son iguales? b) Calcular la potencia del contraste cuando el cociente de varianzas es 2. c) ¿Que tamaño muestral nos asegura una potencia de 0.9 cuando el cociente de varianzas es de 4? d) Dar un intervalo de confianza para la diferencia de medias e) ¿Están los datos de acuerdo en que el nuevo dispositivo de filtrado no reduce el porcentaje de impurezas? f) Calcular la potencia del contraste cuando la diferencia de medias es de -1. Datos: Distribution: F (variance ratio) Variable Lower Tail Area (<) Probability Density Upper Tail Area (>) 0.2 0.0188324 0.273502 0.981168 0.44 0.136386 0.642464 0.863614 0.94 0.460826 0.558782 0.539174 4.55 0.96968 0.0171977 0.0303198 9.8 0.996528 0.00107239 0.00347171 Distribution: Student's t Variable Lower Tail Area (<) Probability Density Upper Tail Area (>) 0.25 0.597011 0.379517 0.402989 0.44 0.666895 0.354097 0.333105 0.94 0.818945 0.248208 0.181055 4.55 0.999808 0.000380906 0.000191598 9.8 1.0 4.35082E-8 3.25702E-8 30 INGENIERÍA QUÍMICA: EXAMEN DE ESTADÍSTICA 6 DE SETIEMBRE DE 2002 1.-Tres laboratorios hacen análisis para una empresa de medio ambiente: Los datos que a continuación se expresan reflejan la experiencia a largo plazo con estos laboratorios (2 puntos) Proporción de análisis Proporción de entrega con Laboratorio correspondientes retraso de más de un mes 1 .5 .3 2 .3 .4 3 .2 .2 La empresa descubre un análisis con más de un mes de retraso. Calcular la probabilidad de que cada laboratorio sea el responsable del análisis. 2.- A continuación se presentan datos de viscosidad de un lote de cierto proceso químico. 13,3 14,9 15,8 16,0 14,5 13,7 13,7 14,9 15,3 15,2 15,1 13,6 15,3 14,5 13,4 15,3 14,3 15,3 14,1 14,3 14,8 15,6 14,8 15,6 15,2 15,8 14,3 16,1 14,5 13,3 14,3 13,9 14,6 14,1 16,4 15,2 a. Construir un diagrama de tallo- hojas para los datos de viscosidad. (0.5 punto) b. Construir una tabla de distribución de frecuencias y dibujar el histograma correspondiente. (1 punto) c. Calcular los cuartiles primero, segundo y tercero y construir un diagrama de cajas. (0.5 puntos) d. Suponiendo que todas las observaciones siguen una distribución normal con una varianza común desconocida. Calcular un intervalo de confianza para la media al nivel 0.1. (1 punto) e. Contrastar la siguiente hipótesis al nivel 0.05. (1 punto) H0: μ =15 H0: μ =16 H1: μ <15 H1: μ ≠16 f. Calcular la región crítica y el p valor para ambos contrastes. (1 punto) 3.- Un lote de 2000 piezas presenta 50 defectuosas. g. Calcular la probabilidad de que en una muestra aleatoria de tamaño 25 se encuentre al menos una defectuosa. (0.5 puntos) h. Calcular el tamaño muestral necesario para detectar tres o menos piezas defectuosas el 90% de las veces. (0.5 puntos) 4.- Un ensamble está compuesto por 10 componentes colocados uno junto al otro. La longitud de cada componente se distribuye normalmente con media 2 cm. y desviación típica 0.02 cm. Las especificaciones requieren que todos los ensambles tengan una longitud entre 9.9 y 10.1 cm. ¿Cuántos ensambles verificarán estos requerimientos? (1 punto) 5.- Calcular los percentiles 5, 25, 50, 75 y 95 de una distribución H(10,15,35), para ello disponemos de las salidas proporcionadas por el statgraphics (1 punto) Distribution: Hypergeometric Probability Mass (=) Variable Dist. 1 Variable Dist. 1 Variable Dist. 1 0 0.0178713 5 0.094903 10 2.9234E-7 1 0.103104 6 0.0255116 2 0.240576 7 0.00410007 3 0.297856 8 0.000372734 4 0.215689 9 0.0000170532 31 EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 31 de Enero de 2003. Primera parte 1.- La tabla adjunta muestra los diámetros en centímetros de una muestra de 24 bolas de cojinete manufacturados por una fábrica. 1.738 1.729 1.743 1.740 1.736 1.741 1.735 1.731 1.726 1.737 1.728 1.724 1.733 1.742 1.725 1.734 1.732 1.730 1.739 1.738 1.727 1.732 1.746 1.744 a. Calcular media, moda, mediana, rango, máximo, mínimo, desviación estándar, primer cuartil, segundo cuartil, tercer cuartil, rango intercuartílico, percentil 5 y percentil 95 muestrales (0.5) b. Hacer una tabla de distribución de frecuencias, un diagrama de tallo-hojas, un histograma y un diagrama de cajas y comenta los gráficos.(1) c. Hallar un intervalo de confianza al 95% para la media y otro para la varianza.(1) d. Para el siguiente contraste de hipótesis H0 : μ = 1.725 H1 : μ > 1.725 Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 1.75. Calcular el tamaño de muestra necesario para asegurarnos una potencia mayor de 0.99 en el punto 1.73. (1.5) e. Para el siguiente contraste de hipótesis H0 : σ = 0.005 H1 : σ #.0.005 Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 0.004. Calcular el tamaño de muestra necesario para asegurarnos una potencia mayor de 0.9 en el punto 0.004. (1.5) Solución: n = 24 media = 1.73458 mediana = 1.7345 Moda = Hay dos 1.732; 1.738 Varianza = 0.0000402536 Desviación estándar = 0.00634457 Mínimo = 1.724 Máximo = 1.746 Rango = 0.022 Valores desde 1.724 a 1.746 Primer cuartil = 1.7295 (dato 6 + dato 7)/2 ordenados de menor a mayor Tercer cuartil = 1.7395 (dato 18 + dato 19)/2 ordenados de menor a mayor Rango intercuartílico = 0.01 percentil 5 = 1.725 dato 2 ordenados de menor a mayor percentil 95 = 1.744 dato 23 ordenados de menor a mayor Tabla de distribución de frecuencias clase menor 1 2 3 4 5 6 mayor lim. Inf lim.Sup. 1.72 1.72 1.725 1.725 1.73 1.73 1.735 1.735 1.74 1.74 1.745 1.745 1.75 1.75 Frec.Abs. 0 1 5 6 6 5 1 0 Frec.Rel. 0 0.041 0.208 0.25 0.25 0.208 0.041 0. Frec.Abs.Ac. Frec.Rel.Ac 0. 0 1 0.041 6 0.25 12 0.5 18 0.75 23 0.58 24 1. 24 1 32 6 frequency 5 4 3 2 1 0 1.72 1.725 1.73 1.735 1.74 1.745 1.75 histograma Diagrama de cajas 1.723 1.728 1.733 1.738 1.743 1.748 1.753 diametro Diagrama de tallo- hojas 1 172|4 6 172|56789 (6) 173|012234 (6) 173|567779 6 174|01234 1 174|6 Intervalo de confianza para la media. T23,0.025= 2.069 1.73458 +/- 0.00267908 [1.7319;1.73726] Intervalo de confianza para la desviación estánda.r X223,0.025= 38.08 X223, 0.975= 11.69 [0.00493109;0.00889992] Para la varianza [0.0000239;0.000078089] 33 Contraste para la media t23,0.05= 1.714 t0 = 7,776 Región crítica T0 > 1.714. Rechazamos la hipótesis nula P- valor P (T23 > 7.776) < P (T23 > 3.767) = 0.0005 Potencia P (1.75)=P (T23 > 1.714/ μ= 1.75)= P (T23 > -17.286) ≈1 Tamaño muestral d = (1.73-1.725)/0.0063 = 0.79 β(d) < 0.01 n comprendido entre 30 y 40 Si n =30 t29, 0.05 = 1.699 P (1.73)=P (T29 > 1.699/ μ= 1.73)= P (T29 > -2.65) De las tablas P (T29 > 2.75) = 0.005 P (T29 > 2.462) = 0.01 P (T29 > - 2.75) = 0.995 P (T29 > - 2.462) = 0.99 0.99 < P (1.73) < 0.995 luego n=30 Contraste para la desviación estándar X20 → X223 X223,0.025 = 38.08 X223,0.975 = 11.69 Región de aceptación 11.69 ≤ X20 ≤ 38.08 x20 = 36.514. Acepto la hipótesis nula, a pesar de que estamos muy cerca de la región crítica P-valor P(X223 < 36.514) ≈ 0.05 P (0.004) = P (X20 > 38.08/σ =0.004) + P (X20 < 11.69/σ =0.004) = P(X223 > 59.5)+ P(X223 < 18.26) De las tablas P(X223 > 14.85) = 0.90 P(X223 > 22.34) = 0.50 0.10 < P (0.004) <0.5 Tamaño muestral: d = 0.004/0.005 = 0.8 Curvas OC n >100 Si n=101 X2100,0.025 = 129.56 X2100,0.975 = 74.22 P (0.004) = P (X20 > 129.56/σ =0.004) + P (X20 < 74.22)/σ =0.004) = P(X223 > 202.437) + P(X223 < 115.96) > 0.5 Utilizando el statgraphics se comprueba n=110 2.- Clasifica las siguientes variables como discretas, continuas o categóricas y da su posible rango. (0.5) a. Número de acciones vendidas en la bolsa de valores. b. Temperatura media anual. c. Vida media de los tubos de TV. d. Ingresos anuales de un trabajador. e. Longitud de tornillos producidos por una empresa. f. Capacidad de un frigorífico. g. Número de libros en la Biblioteca de la Facultad. h. Suma de los puntos al lanzar 20 dados. i. Diámetro de una pieza cilíndrica. j. Países de Europa. 34 EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 31 de Enero de 2003. Segunda parte 1.- Un muestreo de 200 votantes revela la siguiente información referente a tres candidatos A, B, y C. 28 a favor de A y B; 98 a favor de A o B, pero no de C; 42 a favor de B, pero no A o C; 122 a favor de B o C pero no A; 64 a favor de C pero no A o B; 14 a favor de A y C pero no B. Se pide número de votantes a favor de los tres candidatos. (0.75) Solución: P(A∩B∩C) = 8/200. Número de votantes favorables a los tres candidatos 8 2.- Se lanza un dado 120 veces. (0.75) a. Calcular la probabilidad de que salga el 4, 18 veces o menos. b. Calcular la probabilidad de que salga el 4, 14 veces o más. Solución: Sea Xi =1 si el resultado del lanzamiento del dado i es 4 y 0 en caso contrario. Xi es una variable de Bernoulli de parámetro p =1/6 120 Sea Y = ∑X i =1 i . La variable Y sigue una distribución B (200, 1/6) y cuenta el número de veces que sale el 4 en 120 lanzamientos. Esta variable la aproximamos por una normal de media 20 y desviación estándar 4.08 P (Y ≤ 18) = P (Z ≤ -0.49) = 1- 0.6879 = 0.3121; P (Y ≥ 14) = P (Z ≥ -1.47) = 0.9292 3.- Tres joyeros idénticos tienen cada uno 2 cajones. En el primer joyero los dos cajones tienen un reloj de oro, en el segundo un reloj de plata y en el tercer joyero un cajón tiene un reloj de oro y el otro cajón un reloj de plata. Seleccionamos un joyero al azar, abrimos uno de los cajones y observamos que contiene un reloj de plata. Encontrar la probabilidad de que en el otro cajón haya un reloj de oro. (1) Solución: Sean I, II, y III los tres joyeros. P (I) = P (II) = P (III) = 1/3 P (oro/I)=1 P (oro/II)=0 P (oro/III)=½ P (plata/I)=0 P (plata /II)=1 P (plata /III)=1/2 Hay que calcular P (III/plata). Por la fórmula de Bayes P( plata / III ) P( III ) =1/3 = P( plata / I ) P( I ) + P( plata / II ) P( II ) + P ( plata / III ) P( III ) 35 4.- Sea Z una variable N (0,1). (0.75) a. -Calcular P (Z ≥ -1.64) P (-1.96 ≤ Z ≤ 1.96) P ( ⎥ Z⎥ > 1) b. -Hallar z1, z2, z3, z4, z5 en las siguientes ecuaciones: P (Z > z1) = 0.2266 P (Z < z2) = 0.0314 P (-0.23 < Z < z3) = 0.5722 P (1.15 < Z < z4) = 0.0730 P (-z5 <Z < z5) = 0.9 Solución: P( Z ≥ -1.64) = P( Z ≤ 1.64) =0.949 P( -1.96 ≤ Z ≤ 1.96) =2 P(Z ≤ 1.96)-1 = 0.95 P( ⎥ Z⎥ > 1) = 2(1-P(Z ≤ 1)) = 0.3172 P (Z > z1) = 0.2266 P (Z ≤ z1) = 0.7734 z1 = 0.75 P (Z < z2) = 0.0314 z2 ha de ser negativo P (Z ≤ -z2) = 0.9686 - z2= 1.86 z2= -1.86 P (-0.23 < Z < z3) = P (Z < z3) – P (Z < -0.23) = P (Z < z3) – 0.41 =0.5722 . De donde P (Z < z3) = 0.9822 z3 = 2.10 P (1.15 < Z < z4) = P (Z < z4) – P (Z < 1.15) = P (Z < z4) – 0.87493 = 0.0730. De donde P (Z < z4) =0.94793 z4 = 1.62 P (-z5 <Z < z5) = 2 P (Z < z5) -1 = 0.9 P (Z < z5) = 0.95 z5 = 1.64 5.- En una muestra de tamaño 100, se ha obtenido una media muestral de 38,283 y una desviación estándar muestral de 1.25. (0.75) a. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 2.5? El 75% al menos por la desigualdad de Chebichev (1- (1/2)2) b. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 1.5? Al menos el 30.55% ( 1- (1/1.2)2) 36 EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 3 de setiembre de 2003. Primera parte 1.- La tabla adjunta muestra los diámetros en milímetros de una muestra de 24 bolas de cojinete manufacturados por una fábrica. 17.38 17.29 17.43 17.40 17.36 17.41 17.35 17.31 17.26 17.37 17.28 17.24 17.33 17.42 17.25 17.34 17.32 17.30 17.39 17.38 17.27 17.32 17.46 17.44 a) Calcular media, moda, mediana, rango, máximo, mínimo, desviación estándar, primer cuartil, segundo cuartil, tercer cuartil, rango intercuartílico, percentil 5 y percentil 95 muestrales (0.5) b) Hacer una tabla de distribución de frecuencias, un diagrama de tallo-hojas, un histograma y un diagrama de cajas y comenta los gráficos.(1) c) Hallar un intervalo de confianza al 95% para la media y otro para la varianza.(1) d) Para el siguiente contraste de hipótesis H0 : μ = 17.25 H1 : μ ≠ 17.25 Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 17.5. Calcular el tamaño de muestra necesario para asegurarnos una potencia mayor de 0.99 en el punto 17.3. (1.5) e) Para el siguiente contraste de hipótesis H0 : σ = 0.5 H1 : σ < 0.5 Calcular la región crítica, el p-valor (aproximado), la potencia en el punto 0.4. Calcular el tamaño de muestra necesario para asegurarnos una potencia mayor de 0.9 en el punto 0.4. (1.5) 2.-Define: variable discreta, variable continua y variable categórica. Clasifica las siguientes variables y da su posible rango. (0.5) a) Número de acciones vendidas en la bolsa de valores. b) Temperatura media anual. c) Vida media de los tubos de TV. d) Ingresos anuales de un trabajador. e) Longitud de tornillos producidos por una empresa. f) Capacidad de un frigorífico. g) Número de libros en la Biblioteca de la Facultad. h) Suma de los puntos al lanzar 20 dados. i) Diámetro de una pieza cilíndrica. j) Países de Europa. 37 EXAMEN DE ESTADÍSTICA: 2º de Ingeniería Química 3 de setiembre de 2003. Segunda parte 1.- Un muestreo de 200 votantes revela la siguiente información referente a tres candidatos A, B, y C. 28 a favor de A y B 98 a favor de A o B, pero no de C 42 a favor de B, pero no A o C 122 a favor de B o C pero no A 64 a favor de C pero no A o B 14 a favor de A y C pero no B Se pide número de votantes a favor de los tres candidatos. (0.75) Solución: P(A∩B∩C) = 8/200 Número de votantes favorables a los tres candidatos 8 2.- Se lanza un dado 200 veces. (0.75) a) Calcular la probabilidad de que salga el 1, 30 veces o menos. b) Calcular la probabilidad de que salga el 6, 14 veces o más. 3.- Tres joyeros idénticos tienen cada uno 3 cajones. En el primer joyero dos cajones tienen un reloj de oro cada uno, y el otro está vacío, en el segundo, dos cajones tienen un reloj de plata y el tercer cajón vacío y en el tercer joyero un cajón tiene un reloj de oro otro cajón un reloj de plata y el otro cajón está vacío. Seleccionamos un joyero al azar, abrimos uno de los cajones y observamos que contiene un reloj de plata. Encontrar la probabilidad de que al abrir otro cajón encontremos un reloj de oro. (1) 4.- Sea Z una variable N (0,1). (0.75) b. Calcular P (Z ≥ -1.64) P (-1.96 ≤ Z ≤ 1.96) P ( ⎥ Z⎥ > 1) b.-Hallar z1, z2, z3, z4, z5 en las siguientes ecuaciones P (Z < z2) = 0.0314 P (-0.23 < Z < z3) = 0.5722 P (Z > z1) = 0.2266 P (-z5 <Z < z5) = 0.9 P (1.15 < Z < z4) = 0.0730 5.- En una muestra de tamaño 100, se ha obtenido una media muestral de 38,283 y una desviación estándar muestral de 1.25. (0.75) c. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 2.5? d. ¿Qué porcentaje de observaciones cae dentro del rango 38,283± 1.5? 38