Práctica 3 vgaribay PRÁCTICA 3. INTERVALOS DE CONFIANZA OBJETIVOS: • Comprobación del concepto de intervalo de confianza. • Construcción de intervalos de confianza para poblaciones normales. • Cálculo del tamaño muestral. Datos en los ficheros: Datos3IC.sgd, Cardata.sgd y Municipios.sgd. 1.- COMPROBACIÓN DEL CONCEPTO DE INTERVALO DE CONFIANZA Construir 100 intervalos de confianza al 95% para la media μde una población Normal de varianza 36, basados en muestras de tamaño 5, y comprobar que aproximadamente 95 contienen al verdadero valor del parámetro μ(desconocido). Intervalo de confianza para μ al nivel α (con σ conocido): 1.1 Generar cinco variables según una distribución N(10, 6). Describe / Distribution Fitting / Probability Distributions o bien Plot / Prob. Distributions Botón disquete / repetir 5 veces cambiando nombre de la columna, desde Rand1 a Rand5 (disquete RAND1…RAND5) 1 Práctica 3 vgaribay También pueden generarse las 5 columnas de golpe, generando 5 Normales(10,6) y luego (disquete dist1…dist5) 1.2 Hallar ܺത : Describe / Numeric Data / Rowwise Statistics Describe / Numeric Data / Rowwise Statistics 2 Práctica 3 vgaribay Cada una de las 100 filas en la hoja de datos constituye una muestra aleatoria simple de tamaño 5 de la distribución N(10,6) Calculemos la media muestral para cada una de estas 100 muestras Botón disquete marcar promedios (Means) Cada una de las 100 muestras de tamaño 5 permite construir un I. de C para ( conocida =6) Para ello necesitamos el percentil zα/2 3 Práctica 3 vgaribay 1.3 Hallar zα/2: Describe / Distribution Fitting /Probability Distributions Describe / Distribution Fitting / Probability Distributions Pane Options de Inverse CDF: pedimos el valor α/2=0.025 zα/2= z0,025 = 1,959967736 Calcular los límites superior e inferior de los intervalos correspondientes a cada una de las 100 muestras de tamaño 5. 1.4 Se crean 2 nueva variables: lim_inf y lim_sup MEAN±1,959967736*6/sqrt(5) 4 Práctica 3 vgaribay 1.5 Representar gráficamente los intervalos utilizando el operador count(1;100;1) … junto a un Scatterplots / Multiple X-Y plot. Cambiar escala del eje Y a -5 (5) 25 mediante Ventana Plot / Botón derecho / Graphics Options / Y Axis 5 Práctica 3 vgaribay Llevar plot a Stat Gallery: Botón derecho > Copy // Botón derecho > Paste … y añadir línea a altura 10: Botón dcho>Add Item 1.6 Comprobar cuántos de los intervalos contienen el valor 10. Creamos una variable CUBRE_10 que vale 1 si el intervalo para cubre el valor verdadero lim_inf_95 <10 & lim_sup_95 >10 6 Práctica 3 vgaribay Proporción de intervalos que realmente aciertan a cubrir el verdadero valor de mu (mu=10) SUM(CUBRE_10) 7 Práctica 3 vgaribay 2.- INTERVALO DE CONFIANZA CON UNA MUESTRA Y CÁLCULO DEL TAMAÑO MUESTRAL (VARIANZA DESCONOCIDA Y VARIANZA CONOCIDA) Se está investigando el alcance de un nuevo tipo de cartuchos para mortero. Los alcances observados en metros, para 16 cartuchos seleccionados aleatoriamente son: 2216, 2237, 2249, 2204, 2225, 2301, 2281, 2263, 2318, 2255, 2275, 2295, 2250, 2238, 2300, 2217. Se considera que el alcance se distribuye normalmente. Introduzco datos o abro el archivo Datos3IC.sgd , que los contienee. 2.0 (Complemento: comprobación de normalidad Describe / Distribution Fitting/ Fitting Uncensored Data alcance Estos datos soportan la hipótesis de normalidad. Son compatibles con ella. 8 Práctica 3 vgaribay 2.1 a) Elaborar un intervalo de confianza del 95% para el alcance medio. Describe / Numeric Data / One-Variable Analysis alcance Selecciono I de C (y plot de Normalidad) Confidence Intervals for ALCANCE Solución: 95,0% confidence interval for mean: 2257,75 +/- 18,3916 [2239,36; 2276,14] (Para ver otras opciones de IdeC: Botón Secundario / Pane Options ) 2.2 b) Hallar una cota inferior de confianza del 95% para el alcance medio. Describe / Numeric Data / One-Variable Analysis alcance o directamente sobre la tabla salida I. de C. anterior, botón derecho Confidence Bounds for ALCANCE 95,0% lower confidence bound for mean: 2257,75 - 15,1265 [2242,62] 9 Práctica 3 vgaribay 2.3 c) Construir un intervalo de confianza del 95% para el alcance medio, considerando que σ=36. Comparar este intervalo con el de a). En la base de datos construiremos los extremos del I.de C. según la fórmula: Para ello, en la ventana de salida de Describe / Numeric Data / One-Variable Análisis alcance Copio la media o la guardo en la hoja de datos mediante Botón Diskete Calculo ahora límites mediante dos nuevas columnas en hoja de datos (z0,025= 1,959967736 calculado ya en apartado 1.3 ) Solución: Intervalo de confianza = [2240,11; 2275,39] Este intervalo es algo más pequeño que el obtenido en a): [2239,36; 2276,14] al conocer el valor de σ=36 la estimación es ahora más precisa. 2.4 d) ¿Valdría esta muestra si queremos tener una confianza del 95% de que el error al estimar el alcance medio sea menor de 20 metros?; ¿y menor de 5 metros?; ¿y menor de 1 metro? Calcular el tamaño muestral necesario en cada una de las tres situaciones anteriores. Suponer conocida σ=36. Tools / Sample-Size Determination / One Simple 10 Práctica 3 vgaribay Marca Normal Mean y escribe Hypothesized Sigma = 36 Absolute Error = 20 (5 en el Segundo caso, 1 en el tercero) Dejar Confidence Level=95% Marcar Sigma known Sample-Size Determination Parameter to be estimated: normal mean Desired tolerance: +- 20,0 Confidence level: 95,0% Sigma: 36,0 (known) The required sample size is n=13 observations. 11 Práctica 3 vgaribay Sample-Size Determination Parameter to be estimated: normal mean Desired tolerance: +- 5,0 Confidence level: 95,0% Sigma: 36,0 (known) The required sample size is n=200 observations. Sample-Size Determination Parameter to be estimated: normal mean Desired tolerance: +- 1,0 Confidence level: 95,0% Sigma: 36,0 (known) The required sample size is n=4979 observations. Nota: Si σ es desconocida, como no es posible despejar n en la ecuación se toma σ=Sn y tn-1,0.025≡z0.025. 12 Práctica 3 vgaribay 3.- INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS Y PARA EL COCIENTE DE VARIANZAS DE DOS POBLACIONES Normales (VARIANZAS DESCONOCIDAS) 3.1 a) Abrir el fichero de datos Cardata.sgd. Crear dos nuevas columnas de datos: una con los datos de la variable mpg cuando la variable cylinders es menor que 6 y otra con los valores de la variable mpg cuando cylinders es mayor o igual que 6. Para hacerlo se usa el operador select(?;?): Doble click en cabecera de Nueva Columna / Formula select(mpg;cylinders>5) Doble click en cabecera de Nueva Columna / Formula select(mpg;cylinders>6) 3.1.1 b) Comparar las medias y las desviaciones típicas de las dos variables creadas antes. Para ello usar: Compare / Two Simples / Independent Samples en Tablas y Gráficos marcar Comparison of Means + Comparison of Standard Deviations 13 Práctica 3 vgaribay Comparison of Means 95,0% confidence interval for mean of MPG_C1: 32,1467 +/- 1,0923 [31,0544; 33,239] 95,0% confidence interval for mean of MPG_C2: 21,1596 +/- 1,3286 [19,831; 22,4882] 95,0% confidence interval for the difference between the means assuming equal variances: 10,9872 +/- 1,85688 [9,13027; 12,844] Este intervalo NO contiene el 0 los datos NO soportan la igualdad de medias al 95% t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 NE mean2 assuming equal variances: t = 11,6902 P-value = 0 Reject the null hypothesis for alpha = 0,05. Comparison of Standard Deviations MPG_C1 MPG_C2 Standard deviation 5,699 4,52503 Variance 32,4786 20,4759 Df 106 46 Ratio of Variances = 1,58618 95,0% Confidence Intervals Standard deviation of MPG_C1: [5,02421; 6,58495] Standard deviation of MPG_C2: [3,76019; 5,68338] Ratio of Variances: [0,944351; 2,53772] Los datos son compatibles con igualdad de sigmas F-test to Compare Standard Deviations Null hypothesis: sigma1 = sigma2 Alt. hypothesis: sigma1 NE sigma2 F = 1,58618 P-value = 0,0804817 Do not reject the null hypothesis for alpha = 0,05. 14 Práctica 3 vgaribay 3.1.2 b) opción 2) Se llega al mismo resultado directamente con los datos en una sola columna (mpg) y seleccionando las muestras según el valor de cilindres: Compare / Two Simples / Independent Samples Marcar ͼ Data and Code Columns (en lugar de Two Data Columns) y codificar por cylinders>5 15 Práctica 3 vgaribay EJERCICIOS Ejercicio 3.1: Repetir el apartado 1 suponiendo la y comparar los intervalos obtenidos en ambos casos. Ahora el intervalo de confianza para μ al nivel α (σ desconocido) es: Hallar S: Describe / Numeric Data / Rowwise Statistics (disquete Desviación Estándar). Hallar tα/2: Describe / Distribution Fitting / Probability Distributions t0,975 = 2,776453604 Calcular los límites superior e inferior de los intervalos correspondientes a cada muestra. Se crean 2 nueva variables: lim_inf_descono y lim_sup_descono MEAN +/- 2,776453604*SIGMA/sqrt(5) Error max estimación: 2,776453604*SIGMA/sqrt(5) (era 5,26 en ejercicio 1) Representar gráficamente los intervalos utilizando el operador count junto a un Gráfico X-Y. Comprobar cuántos de los intervalos contienen el valor 10. Nueva variable CUBRE_10 indicadora de cobertura correcta : lim_inf_descono <10 & lim_sup_descono >10 porcentaje de intervalos que aciertan SUM(CUBRE_10) SUM(cubre_mu10) 16 Práctica 3 vgaribay Ejercicio 3.2: Repetir el apartado 1 para intervalos de confianza para la varianza. El intervalo de confianza para σ2 al nivel α es: Hallar S2 en cada una de las 100 muestras de tamaño 5: Describe / Numeric Data / Rowwise Statistics (disquete Varianza : variable S2). Hallar percentiles 0,025 y 0.0975 de la chi-2 (n = 4, α = 0,95): Describe / Distribution Fitting / Probability Distributions : =0,4844185559 y =11,14328678 Calcular los límites superior e inferior de los intervalos correspondientes a cada muestra. Se crean 2 nueva variables: lim_inf_varianza y lim_sup_varianza lim_inf_varianza 5*S2/11,14328678 lim_sup_varianza 5*S2/0,4844185559 Representar gráficamente los intervalos utilizando el operador count junto a un Gráfico X-Y. Comprobar cuántos de los intervalos contienen el valor 36. Variable cubre_sigma_36 : lim_inf_varianza <36 & lim_sup_varianza >36 Cuento aciertos, variable : SUM(cubre_sigma_36) 17 Práctica 3 vgaribay Ejercicio 3.3: Suponiendo normalidad, obtener un intervalo de confianza de nivel 0.01 para la media de la variable -2*log(DistanciaCapital/Altitud), obtenida a partir del fichero Municipios.sgd. Abro Municipios.sgd Creo nueva variable: -2*log(DistanciaCapital/Altitud) Describe/ Distribution Fittinf / Fitting Uncensored Data Es medianamente razonable razonable suponer normalidad? Normal Goodness-of-fit Tests y Quantile Plot 18 Práctica 3 vgaribay Summary Statistics for -2log_dist_ampli Count 62 Average 3,73213 Standard deviation 0,856565 Confidence Intervals for -2log_dist_ampli 99,0% confidence interval Describe/ Numeric data / One-Variable Analisys Confidence Intervals , Frecuency Histogram y Normal Probability Plot Pane Options Confidence Intervals for Col_10 99,0% confidence interval for mean: 3,73213 +/- 0,289241 [3,44288; 4,02137] 19 Práctica 3 vgaribay Ejercicio 3.4: Se sabe que la duración en horas de una bombilla eléctrica de 75W se distribuye aproximadamente en forma normal. Para una muestra aleatoria de 20 bombillas se obtienen las siguientes duraciones: 1014, 1015, 1018, 1007, 980, 1001, 971, 1009, 1033, 997, 1003, 1028, 1036, 998, 982, 1011, 998, 1024, 1031, 1058. Se pide: a) Elaborar un intervalo de confianza del 95% para la vida media. (mu, sigma desconocida) Describe / Numeric Data / One-Variable Análisis Summary Statistics for DURACION Count 20 Average 1010,7 Variance 440,432 Standard deviation 20,9865 Confidence Intervals for DURACION 95,0% confidence interval for mean: 1010,7 +/- 9,82199 [1000,88; 1020,52] Complemento Normalidad: Describe/ Distribution Fittinf / Fitting Uncensored Data 95,0% confidence interval for mean: 1010,7 +/- 9,82199 [1000,88; 1020,52] 20 Práctica 3 vgaribay b) Encontrar una cota inferior de confianza al 99% para la vida media. Describe / Numeric Data / One-Variable Análisis Tabla I.de C Pane Options: 99% y Cota inferior Confidence Bounds for DURACION 99,0% lower confidence bound for mean: 1010,7 - 11,9171 [998,783] c) Si se desea obtener un intervalo con una confianza del 95% de que el error al estimar la duración media sea menor de 5 horas, ¿cuál debe ser el tamaño muestral? Tools / Sample-Size Determination / One Simple Absolute Error = 5 Sigma To be estimed Confidence Level 95% Sample-Size Determination Parameter to be estimated: normal mean Desired tolerance: +- 5,0 Confidence level: 95,0% Sigma: 20,9865 (to be estimated) The required sample size is n=71 observations 21 Práctica 3 vgaribay Ejercicio 3.5: Se recogen 5 muestras de un control antidoping correspondientes a 50 deportistas. Interesa anotar el valor mínimo obtenido por cada deportista. Los valores están en el fichero Datos3IC. Se crea un nueva variable que es el mínimo Describe / Numeric Data / Rowwise Statistics ; (Save Mínimum a Diskete) Suponiendo normalidad, proporcionar un intervalo de confianza al 97% para la media de las anotaciones (valor mínimo de cada atleta). Describe / Numeric Data / One-Variable Análisis Tabla I.de C Pane Options CI alfa=97% Confidence Intervals for MINIMUM 97,0% confidence interval for mean: 16,7531 +/- 0,610151 [16,1429; 17,3632] 22 Práctica 3 vgaribay Ejercicio 3.6: A continuación se presentan los tiempos que tardan en consumirse bengalas de dos tipos diferentes: Tipo I: 65, 81, 57, 66, 82, 82, 67, 59, 75, 70. Tipo II: 64, 71, 83, 59, 65, 56, 69, 74, 82, 79. Calcular el intervalo de confianza del 95% para la diferencia de medias y el intervalo de confianza del 95% para el cociente de las varianzas. Los valores están en el fichero Datos3IC. Compare / Two Simples / Independent Samples en Tabulación abrir Comparison of Means y Comparison of Standard Deviations Comparison of Means 95,0% confidence interval for mean of tipo1: 70,4 +/- 6,6271 [63,7729; 77,0271] 95,0% confidence interval for mean of tipo2: 70,2 +/- 6,70048 [63,4995; 76,9005] 95,0% confidence interval for the difference between the means assuming equal variances: 0,2 +/- 8,75246 [-8,55246; 8,95246] t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 NE mean2 assuming equal variances: t = 0,0480077 P-value = 0,962239 Do not reject the null hypothesis for alpha = 0,05. Comparison of Standard Deviations tipo1 tipo2 Standard deviation 9,26403 9,36661 Variance 85,8222 87,7333 Df 9 9 Ratio of Variances = 0,978217 95,0% Confidence Intervals Standard deviation of tipo1: [6,37212; 16,9125] Standard deviation of tipo2: [6,44268; 17,0998] Ratio of Variances: [0,242975; 3,9383] F-test to Compare Standard Deviations Null hypothesis: sigma1 = sigma2 Alt. hypothesis: sigma1 NE sigma2 F = 0,978217 P-value = 0,974366 23 Práctica 3 vgaribay Do not reject the null hypothesis for alpha = 0,05. Ejercicio 3.7: a) Generar 500 observaciones del número de veces que aparece un 2 al tirar 5 dados, utilizando la distribución binomial. Describe / Distritution Fitting / Probability Distributions 1/6 = 0,16666667 Binomial (5, 0,16666667) Pane Options n=500 Botón Save Datos a disckete 24 Práctica 3 vgaribay b) Estimar la probabilidad de sacar exactamente 3 doses en una tirada de 5 dados. Probabilidades Teóricas: Probability Mass (=) Describe / Categorical Data / Frequency Tables Variable 0 Dist. 1 0,401877 1 2 3 4 0,401878 0,160752 0,0321504 0,00321505 Frecuencias en la muestra Frequency Table for Bin(5,1/6) Class 1 2 3 4 5 Value 0 1 2 3 4 Frequency 207 193 79 19 2 Relative Frequency 0,4140 0,3860 0,1580 0,0380 0,0040 Cumulative Frequency 207 400 479 498 500 Cum. Rel. Frequency 0,4140 0,8000 0,9580 0,9960 1,0000 c) Calcular un I.C. al 90% para dicha proporción. P estimada en esta muestra = 0,0380 en Describe / Categorical Data / Frequency Tables z0,95 = 1,644856922 en Describe / Distritution Fitting / Probability Distributions Normal(0,1) dos nuevas variables, para calcular directamente LI y LS 0,0380 +/- 1,644856922*sqrt(0,0380*0,062/100) Límite Inferior: 0,0190534 Límite Superior: 0,0449466 25