guía - Estadística e Investigación Operativa

Anuncio
Práctica 3 vgaribay
PRÁCTICA 3. INTERVALOS DE CONFIANZA
OBJETIVOS:
• Comprobación del concepto de intervalo de confianza.
• Construcción de intervalos de confianza para poblaciones normales.
• Cálculo del tamaño muestral.
Datos en los ficheros: Datos3IC.sgd, Cardata.sgd y Municipios.sgd.
1.- COMPROBACIÓN DEL CONCEPTO DE INTERVALO DE CONFIANZA
Construir 100 intervalos de confianza al 95% para la media μde una población Normal de varianza 36,
basados en muestras de tamaño 5, y comprobar que aproximadamente 95 contienen al verdadero valor
del parámetro μ(desconocido).
Intervalo de confianza para μ al nivel α (con σ conocido):
1.1 Generar cinco variables según una distribución N(10, 6).
Describe / Distribution Fitting / Probability Distributions o bien Plot / Prob. Distributions
Botón disquete / repetir 5 veces cambiando nombre de la columna, desde Rand1 a Rand5
(disquete RAND1…RAND5)
1
Práctica 3 vgaribay
También pueden generarse las 5 columnas de golpe, generando 5 Normales(10,6)
y luego (disquete dist1…dist5)
1.2
Hallar ܺത : Describe / Numeric Data / Rowwise Statistics
Describe / Numeric Data / Rowwise Statistics
2
Práctica 3 vgaribay
Cada una de las 100 filas en la hoja de datos
constituye una muestra aleatoria simple de tamaño 5 de la distribución N(10,6)
Calculemos la media muestral para cada una de estas 100 muestras
Botón disquete marcar promedios (Means)
Cada una de las 100 muestras de tamaño 5 permite construir un I. de C para  ( conocida =6)
Para ello necesitamos el percentil zα/2
3
Práctica 3 vgaribay
1.3 Hallar zα/2: Describe / Distribution Fitting /Probability Distributions
Describe / Distribution Fitting / Probability Distributions
Pane Options de Inverse CDF: pedimos el valor α/2=0.025
zα/2= z0,025 = 1,959967736
Calcular los límites superior e inferior de los intervalos correspondientes a cada una
de las 100 muestras de tamaño 5.
1.4
Se crean 2 nueva variables: lim_inf y lim_sup
MEAN±1,959967736*6/sqrt(5)
4
Práctica 3 vgaribay
1.5
Representar gráficamente los intervalos utilizando el operador count(1;100;1)
… junto a un Scatterplots / Multiple X-Y plot.
Cambiar escala del eje Y a -5 (5) 25 mediante
Ventana Plot / Botón derecho / Graphics Options / Y Axis
5
Práctica 3 vgaribay
Llevar plot a Stat Gallery: Botón derecho > Copy // Botón derecho > Paste
… y añadir línea a altura 10: Botón dcho>Add Item
1.6
Comprobar cuántos de los intervalos contienen el valor 10.
Creamos una variable CUBRE_10 que vale 1 si el intervalo para  cubre el valor verdadero
lim_inf_95 <10 & lim_sup_95 >10
6
Práctica 3 vgaribay
Proporción de intervalos que realmente aciertan a cubrir el verdadero valor de mu (mu=10)
SUM(CUBRE_10)
7
Práctica 3 vgaribay
2.- INTERVALO DE CONFIANZA CON UNA MUESTRA Y
CÁLCULO DEL TAMAÑO MUESTRAL
(VARIANZA DESCONOCIDA Y VARIANZA CONOCIDA)
Se está investigando el alcance de un nuevo tipo de cartuchos para mortero.
Los alcances observados en metros, para 16 cartuchos seleccionados aleatoriamente son:
2216, 2237, 2249, 2204, 2225, 2301, 2281, 2263, 2318, 2255, 2275, 2295, 2250, 2238, 2300, 2217.
Se considera que el alcance se distribuye normalmente.
Introduzco datos
o abro el archivo Datos3IC.sgd , que los contienee.
2.0 (Complemento: comprobación de normalidad
Describe / Distribution Fitting/ Fitting Uncensored Data alcance
Estos datos soportan la hipótesis de normalidad. Son compatibles con ella.
8
Práctica 3 vgaribay
2.1 a) Elaborar un intervalo de confianza del 95% para el alcance medio.
Describe / Numeric Data / One-Variable Analysis
alcance
Selecciono I de C (y plot de Normalidad)
Confidence Intervals for ALCANCE
Solución: 95,0% confidence interval for mean: 2257,75 +/- 18,3916 [2239,36; 2276,14]
(Para ver otras opciones de IdeC: Botón Secundario / Pane Options )
2.2 b) Hallar una cota inferior de confianza del 95% para el alcance medio.
Describe / Numeric Data / One-Variable Analysis alcance
o directamente sobre la tabla salida I. de C. anterior, botón derecho
Confidence Bounds for ALCANCE
95,0% lower confidence bound for mean: 2257,75 - 15,1265 [2242,62]
9
Práctica 3 vgaribay
2.3 c) Construir un intervalo de confianza del 95% para el alcance medio, considerando que σ=36.
Comparar este intervalo con el de a).
En la base de datos construiremos los extremos del I.de C. según la fórmula:
Para ello, en la ventana de salida de
Describe / Numeric Data / One-Variable Análisis alcance
Copio la media o la guardo en la hoja de datos mediante Botón Diskete
Calculo ahora límites mediante dos nuevas columnas en hoja de datos
(z0,025= 1,959967736 calculado ya en apartado 1.3 )
Solución: Intervalo de confianza = [2240,11; 2275,39]
Este intervalo es algo más pequeño que el obtenido en a): [2239,36; 2276,14]
al conocer el valor de σ=36 la estimación es ahora más precisa.
2.4 d) ¿Valdría esta muestra si queremos tener una confianza del 95% de que el error al estimar
el alcance medio sea menor de 20 metros?; ¿y menor de 5 metros?; ¿y menor de 1 metro?
Calcular el tamaño muestral necesario en cada una de las tres situaciones anteriores.
Suponer conocida σ=36.
Tools / Sample-Size Determination / One Simple
10
Práctica 3 vgaribay
Marca Normal Mean y escribe Hypothesized Sigma = 36
Absolute Error = 20 (5 en el Segundo caso, 1 en el tercero)
Dejar Confidence Level=95%
Marcar Sigma known
Sample-Size Determination
Parameter to be estimated: normal mean
Desired tolerance: +- 20,0
Confidence level: 95,0%
Sigma: 36,0 (known)
The required sample size is n=13 observations.
11
Práctica 3 vgaribay
Sample-Size Determination
Parameter to be estimated: normal mean
Desired tolerance: +- 5,0
Confidence level: 95,0%
Sigma: 36,0 (known)
The required sample size is n=200 observations.
Sample-Size Determination
Parameter to be estimated: normal mean
Desired tolerance: +- 1,0
Confidence level: 95,0%
Sigma: 36,0 (known)
The required sample size is n=4979 observations.
Nota: Si σ es desconocida, como no es posible despejar n en la ecuación
se toma σ=Sn y tn-1,0.025≡z0.025.
12
Práctica 3 vgaribay
3.- INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS
Y PARA EL COCIENTE DE VARIANZAS DE
DOS POBLACIONES Normales (VARIANZAS DESCONOCIDAS)
3.1 a) Abrir el fichero de datos Cardata.sgd. Crear dos nuevas columnas de
datos: una con los datos de la variable mpg cuando la variable cylinders es
menor que 6 y otra con los valores de la variable mpg cuando cylinders es
mayor o igual que 6. Para hacerlo se usa el operador select(?;?):
Doble click en cabecera de Nueva Columna / Formula select(mpg;cylinders>5)
Doble click en cabecera de Nueva Columna / Formula select(mpg;cylinders>6)
3.1.1 b) Comparar las medias y las desviaciones típicas de las dos variables
creadas antes. Para ello usar:
Compare / Two Simples / Independent Samples
en Tablas y Gráficos marcar
Comparison of Means + Comparison of Standard Deviations
13
Práctica 3 vgaribay
Comparison of Means
95,0% confidence interval for mean of MPG_C1: 32,1467 +/- 1,0923 [31,0544; 33,239]
95,0% confidence interval for mean of MPG_C2: 21,1596 +/- 1,3286 [19,831; 22,4882]
95,0% confidence interval for the difference between the means assuming equal variances:
10,9872 +/- 1,85688 [9,13027; 12,844]
Este intervalo NO contiene el 0  los datos NO soportan la igualdad de medias al 95%
t test to compare means
Null hypothesis: mean1 = mean2
Alt. hypothesis: mean1 NE mean2
assuming equal variances: t = 11,6902 P-value = 0 Reject the null hypothesis for alpha = 0,05.
Comparison of Standard Deviations
MPG_C1 MPG_C2 Standard deviation 5,699 4,52503 Variance 32,4786 20,4759 Df 106 46
Ratio of Variances = 1,58618
95,0% Confidence Intervals
Standard deviation of MPG_C1: [5,02421; 6,58495]
Standard deviation of MPG_C2: [3,76019; 5,68338]
Ratio of Variances: [0,944351; 2,53772]  Los datos son compatibles con igualdad de sigmas
F-test to Compare Standard Deviations
Null hypothesis: sigma1 = sigma2
Alt. hypothesis: sigma1 NE sigma2
F = 1,58618 P-value = 0,0804817 Do not reject the null hypothesis for alpha = 0,05.
14
Práctica 3 vgaribay
3.1.2 b) opción 2)
Se llega al mismo resultado directamente con los datos en una sola columna (mpg)
y seleccionando las muestras según el valor de cilindres:
Compare / Two Simples / Independent Samples
Marcar ͼ Data and Code Columns (en lugar de Two Data Columns)
y codificar por cylinders>5
15
Práctica 3 vgaribay
EJERCICIOS
Ejercicio 3.1:
Repetir el apartado 1 suponiendo la y comparar los intervalos obtenidos en ambos casos.
Ahora el intervalo de confianza para μ al nivel α (σ desconocido) es:
Hallar S:
Describe / Numeric Data / Rowwise Statistics (disquete  Desviación Estándar).
Hallar tα/2:
Describe / Distribution Fitting / Probability Distributions t0,975 = 2,776453604
Calcular los límites superior e inferior de los intervalos correspondientes a cada muestra.
Se crean 2 nueva variables: lim_inf_descono y lim_sup_descono
MEAN +/- 2,776453604*SIGMA/sqrt(5)
Error max estimación: 2,776453604*SIGMA/sqrt(5) (era 5,26 en ejercicio 1)
Representar gráficamente los intervalos utilizando el operador count junto a un Gráfico X-Y.
Comprobar cuántos de los intervalos contienen el valor 10.
Nueva variable CUBRE_10 indicadora de cobertura correcta :
lim_inf_descono <10 & lim_sup_descono >10
porcentaje de intervalos que aciertan SUM(CUBRE_10)
SUM(cubre_mu10)
16
Práctica 3 vgaribay
Ejercicio 3.2:
Repetir el apartado 1 para intervalos de confianza para la varianza.
El intervalo de confianza para σ2 al nivel α es:
Hallar S2 en cada una de las 100 muestras de tamaño 5:
Describe / Numeric Data / Rowwise Statistics (disquete  Varianza : variable S2).
Hallar percentiles 0,025 y 0.0975 de la chi-2 (n = 4, α = 0,95):
Describe / Distribution Fitting / Probability Distributions :
=0,4844185559 y
=11,14328678
Calcular los límites superior e inferior de los intervalos correspondientes a cada muestra.
Se crean 2 nueva variables: lim_inf_varianza y lim_sup_varianza
lim_inf_varianza 5*S2/11,14328678
lim_sup_varianza 5*S2/0,4844185559
Representar gráficamente los intervalos utilizando el operador count junto
a un Gráfico X-Y.
Comprobar cuántos de los intervalos contienen el valor 36.
Variable cubre_sigma_36 : lim_inf_varianza <36 & lim_sup_varianza >36
Cuento aciertos, variable : SUM(cubre_sigma_36)
17
Práctica 3 vgaribay
Ejercicio 3.3:
Suponiendo normalidad, obtener un intervalo de confianza de nivel 0.01 para la media de la
variable -2*log(DistanciaCapital/Altitud), obtenida a partir del fichero Municipios.sgd.
Abro Municipios.sgd
Creo nueva variable: -2*log(DistanciaCapital/Altitud)
Describe/ Distribution Fittinf / Fitting Uncensored Data
Es medianamente razonable razonable suponer normalidad?
Normal
Goodness-of-fit Tests y Quantile Plot
18
Práctica 3 vgaribay
Summary Statistics for -2log_dist_ampli
Count 62
Average 3,73213
Standard deviation 0,856565
Confidence Intervals for -2log_dist_ampli 99,0% confidence interval
Describe/ Numeric data / One-Variable Analisys
Confidence Intervals , Frecuency Histogram y Normal Probability Plot
Pane Options
Confidence Intervals for Col_10
99,0% confidence interval for mean:
3,73213 +/- 0,289241 [3,44288; 4,02137]
19
Práctica 3 vgaribay
Ejercicio 3.4:
Se sabe que la duración en horas de una bombilla eléctrica de 75W se distribuye
aproximadamente en forma normal. Para una muestra aleatoria de 20 bombillas se obtienen las
siguientes duraciones: 1014, 1015, 1018, 1007, 980, 1001, 971, 1009, 1033, 997, 1003, 1028,
1036, 998, 982, 1011, 998, 1024, 1031, 1058. Se pide:
a) Elaborar un intervalo de confianza del 95% para la vida media. (mu, sigma desconocida)
Describe / Numeric Data / One-Variable Análisis
Summary Statistics for DURACION
Count 20
Average 1010,7
Variance 440,432
Standard deviation 20,9865
Confidence Intervals for DURACION
95,0% confidence interval for mean: 1010,7 +/- 9,82199 [1000,88; 1020,52]
Complemento Normalidad: Describe/ Distribution Fittinf / Fitting Uncensored Data
95,0% confidence interval for mean: 1010,7 +/- 9,82199 [1000,88; 1020,52]
20
Práctica 3 vgaribay
b) Encontrar una cota inferior de confianza al 99% para la vida media.
Describe / Numeric Data / One-Variable Análisis Tabla I.de C
Pane Options: 99% y Cota inferior
Confidence Bounds for DURACION
99,0% lower confidence bound for mean: 1010,7 - 11,9171 [998,783]
c) Si se desea obtener un intervalo con una confianza del 95% de que el error al estimar la
duración media sea menor de 5 horas, ¿cuál debe ser el tamaño muestral?
Tools / Sample-Size Determination / One Simple
Absolute Error = 5
Sigma To be estimed
Confidence Level 95%
Sample-Size Determination
Parameter to be estimated: normal mean
Desired tolerance: +- 5,0
Confidence level: 95,0%
Sigma: 20,9865 (to be estimated)
The required sample size is n=71 observations
21
Práctica 3 vgaribay
Ejercicio 3.5:
Se recogen 5 muestras de un control antidoping correspondientes a 50 deportistas. Interesa
anotar el valor mínimo obtenido por cada deportista. Los valores están en el fichero Datos3IC.
Se crea un nueva variable que es el mínimo
Describe / Numeric Data / Rowwise Statistics ; (Save Mínimum a Diskete)
Suponiendo normalidad, proporcionar un intervalo de confianza al 97% para la media de las
anotaciones (valor mínimo de cada atleta).
Describe / Numeric Data / One-Variable Análisis Tabla I.de C
Pane Options CI alfa=97%
Confidence Intervals for MINIMUM
97,0% confidence interval for mean: 16,7531 +/- 0,610151 [16,1429; 17,3632]
22
Práctica 3 vgaribay
Ejercicio 3.6: A continuación se presentan los tiempos que tardan en consumirse
bengalas de dos tipos diferentes:
Tipo I: 65, 81, 57, 66, 82, 82, 67, 59, 75, 70.
Tipo II: 64, 71, 83, 59, 65, 56, 69, 74, 82, 79.
Calcular el intervalo de confianza del 95% para la diferencia de medias y el
intervalo de confianza del 95% para el cociente de las varianzas.
Los valores están en el fichero Datos3IC.
Compare / Two Simples / Independent Samples
en Tabulación abrir
Comparison of Means y Comparison of Standard Deviations
Comparison of Means
95,0% confidence interval for mean of tipo1: 70,4 +/- 6,6271 [63,7729; 77,0271]
95,0% confidence interval for mean of tipo2: 70,2 +/- 6,70048 [63,4995; 76,9005]
95,0% confidence interval for the difference between the means assuming equal variances:
0,2 +/- 8,75246 [-8,55246; 8,95246]
t test to compare means
Null hypothesis: mean1 = mean2
Alt. hypothesis: mean1 NE mean2
assuming equal variances: t = 0,0480077 P-value = 0,962239
Do not reject the null hypothesis for alpha = 0,05.
Comparison of Standard Deviations
tipo1 tipo2
Standard
deviation
9,26403 9,36661
Variance 85,8222 87,7333
Df 9 9
Ratio of Variances = 0,978217
95,0% Confidence Intervals
Standard deviation of tipo1: [6,37212; 16,9125]
Standard deviation of tipo2: [6,44268; 17,0998]
Ratio of Variances: [0,242975; 3,9383]
F-test to Compare Standard Deviations
Null hypothesis: sigma1 = sigma2
Alt. hypothesis: sigma1 NE sigma2
F = 0,978217 P-value = 0,974366
23
Práctica 3 vgaribay
Do not reject the null hypothesis for alpha = 0,05.
Ejercicio 3.7:
a) Generar 500 observaciones del número de veces que aparece un 2 al tirar 5
dados, utilizando la distribución binomial.
Describe / Distritution Fitting / Probability Distributions
1/6 = 0,16666667
Binomial (5, 0,16666667)
Pane Options n=500
Botón Save Datos a disckete
24
Práctica 3 vgaribay
b) Estimar la probabilidad de sacar exactamente 3 doses en una tirada de 5 dados.
Probabilidades Teóricas: Probability Mass (=)
Describe / Categorical Data / Frequency Tables
Variable
0
Dist. 1
0,401877
1
2
3
4
0,401878
0,160752
0,0321504
0,00321505
Frecuencias en la muestra
Frequency Table for Bin(5,1/6)
Class
1
2
3
4
5
Value
0
1
2
3
4
Frequency
207
193
79
19
2
Relative
Frequency
0,4140
0,3860
0,1580
0,0380
0,0040
Cumulative
Frequency
207
400
479
498
500
Cum. Rel.
Frequency
0,4140
0,8000
0,9580
0,9960
1,0000
c) Calcular un I.C. al 90% para dicha proporción.
P estimada en esta muestra = 0,0380 en Describe / Categorical Data / Frequency Tables
z0,95 = 1,644856922 en Describe / Distritution Fitting / Probability Distributions Normal(0,1)
dos nuevas variables, para calcular directamente LI y LS
0,0380 +/- 1,644856922*sqrt(0,0380*0,062/100)
Límite Inferior: 0,0190534
Límite Superior: 0,0449466
25
Descargar