Subido por Cristopher Angulo Ahumada

Clase 25 - Pruebas de hipótesis para dos muestras

Anuncio
Departamento de Ingeniería Informática
Ingeniería Civil en Informática
ESTADÍSTICA
COMPUTACIONAL
Pruebas de hipótesis para dos muestras (Parte 2)
Clase 25
manuel.villalobos@usach.cl
mónica.villanueva@usach.cl
Departamento de Ingeniería Informática
¿Qué veremos en
esta clase?
Pruebas de hipótesis para dos muestras (Parte 2)
• Introducción
• Mediana poblacional entre dos muestras emparejadas.
• Mediana poblacional entre dos muestras emparejadas.
• Comparación de varianza.
Contenidos
02
Tipos de estadística
Estadística Inferencial
Emplea:
Teorema límite central
Intervalos de confianza
Error
Muestreo
Contraste de hipótesis
Para:
Inferir
Concluir
Extrapolar
03
Prever
Predecir
Estadística inferencial
Estadística Inferencial
Estimación puntual
Intervalos de confianza
Pruebas de hipótesis
Regresión
04
Estadística inferencial
05
Estadística Inferencial – Pruebas de hipótesis – dos muestra
Estadística inferencial
Estadística Inferencial – Pruebas de hipótesis
Resumen – Clase anterior
Evaluación
Supuesto de
normalidad
Test hipótesis
Shapiro-Wilk
Lillie (KolmogorovSmirnov)
Anderson-Darling
06
Paramétricos
Gráfico
No paramétricos
Una muestra
QQplot
Media
Media y varianza
poblacional conocida,
o n>30
Z-test
Varianza
Media poblacional
conocida y varianza
desconocida o n<=30
T-test
Chi squared
Dos muestras
Proporciones
Z-test
para proporciones
binominales
Media
Pareadas
Paired t-test
Una muestra
Varianza
No pareadas
Welch t-test
F-test
Barlett’s test
Cramer-von Mises
Breusch Pagan Test
Pearson chi-square
test
Score Test
Shapiro-Francia test
Chi-squared test*
Proporciones
Test of Equal or Given
Proportions
Mediana
Wilcoxon Rank
Sum Test
Varianza
Chi-squared test
Dos muestras
Proporciones
Sign test para
proporciones
binomiales
Chi-square test (GoF)
Mediana
Pareada
Wilcoxon Rank
Sum Test
Varianza
No pareada
Mann-Whitney U test
Chi squared
Levene’s test
Proporciones
Chi-squared test
Estadística inferencial
Estadística Inferencial – Pruebas de hipótesis – dos muestra
El conjunto de datos incorporado llamado immer, se registra el rendimiento de cebada en
los años 1931 y 1932 del mismo campo. Los datos de rendimiento se presentan en las
columnas del marco de datos Y1 e Y2. Sin asumir que los datos tienen una distribución
normal, pruebe a un nivel de significación de 0,05 si los rendimientos de cebada de 1931 y
1932 en el conjunto de datos immer tienen distribuciones de datos idénticas.
> library("MASS")
> head(immer)
Loc Var
Y1
Y2
UF
M
81.0
80.7
UF
S
105.4 82.3
UF
V
119.7 80.4
UF
T
109.7 87.2
UF
P
98.3
84.2
W
M
146.6 100.4
>boxplot(immer$Y1,
immer$Y2,names = c(“1931",“1932"))
>#109; 93 (medias)
>#102.95;92,95 (mediana)
>#28; 24 (sd)
>#26%; 26% (coef_var)
07
wilcox.test(immer$Y1, immer$Y2, paired=TRUE)
Wilcoxon signed rank test with continuity correction
data: immer$Y1 and immer$Y2
V = 368.5, p-value = 0.005318
alternative hypothesis: true location shift is not equal to 0
Con un nivel de significancia de .05, concluimos que los rendimientos de cebada de 1931 y 1932 del conjunto de datos immer
son poblaciones no idénticas.
Estadística inferencial
Estadística Inferencial – Pruebas de hipótesis – dos muestra
Entre los datos del conjunto mtcars, se encuentra el consumo de combustible por kilómetro
(mpg) de varios automóviles estadounidenses de 1974. Existe otra columna (am), que indica si
los autos tienen transmisión automática (0) o manual (1). Sin suponer que los datos tienen una
distribución normal, decida con un nivel de significancia de 0,05 si los datos de millaje de
gasolina de las transmisiones manuales y automáticas en mtcars tienen una distribución de
datos idéntica.
>head(mtcars)
Mazda RX4
Mazda RX4 Wag
Datsun 710
Hornet 4 Drive
Hornet Sportabout
Valiant
mpg cyl disp
21.0 6 160
21.0 6 160
22.8 4 108
21.4 6 258
18.7 8 360
18.1 6 225
hp
110
110
93
110
175
105
drat
3.90
3.90
3.85
3.08
3.15
2.76
wt
2.620
2.875
2.320
3.215
3.440
3.460
qsec
16.46
17.02
18.61
19.44
17.02
20.22
vs am gear carb
0 1 4 4
0 1 4 4
1 1 4 1
1 0 3 1
0 0 3 2
>wilcox.test(mpg ~ am, data=mtcars)
1 0 3 1
Wilcoxon rank sum test with continuity
correction
>(mtcars$mpg, mtcars$am,names = c("Manual","Automático"))
>#17.1; 24.4 (medias) – 0 y 1
>#17,3; 22,8 (mediana) – 0 y 1
>#3.8; 6.2 (sd) – 0 y 1
>#22%; 26% (coef_var) – 0 y 1
08
data: mpg by am
W = 42, p-value = 0.001871
alternative hypothesis: true location shift is not
equal to 0
Con un nivel de significancia de .05, concluimos que los datos de rendimiento de gasolina de las transmisiones manual y automática en
mtcar son poblaciones no idénticas.
Estadística inferencial
Estadística Inferencial – Pruebas de hipótesis – dos muestra
Entre los datos del conjunto mtcars, se encuentra el consumo de combustible por kilómetro (mpg) de
varios automóviles estadounidenses de 1974. Existe otra columna (am), que indica si los autos tienen
transmisión automática (0) o manual (1). Decida con un nivel de significancia de 0,05 si los datos
presentan homocedasticidad.
>head(mtcars)
Mazda RX4
Mazda RX4 Wag
Datsun 710
Hornet 4 Drive
Hornet Sportabout
Valiant
mpg cyl disp
21.0 6 160
21.0 6 160
22.8 4 108
21.4 6 258
18.7 8 360
18.1 6 225
hp
110
110
93
110
175
105
drat
3.90
3.90
3.85
3.08
3.15
2.76
wt
2.620
2.875
2.320
3.215
3.440
3.460
qsec
16.46
17.02
18.61
19.44
17.02
20.22
>(mtcars$mpg, mtcars$am,names = c("Manual","Automático"))
>#17.1; 24.4 (medias) – 0 y 1
>#17,3; 22,8 (mediana) – 0 y 1
>#3.8; 6.2 (sd) – 0 y 1
>#22%; 26% (coef_var) – 0 y 1
09
vs am gear carb
0 1 4 4
0 1 4 4
1 1 4 1
1 0 3 1
0 0 3 2
1 0 3 1
F-test - varianza (2 poblaciones)
𝐻0 : 𝜎𝐴2 = 𝜎𝐴2
𝐻0 : 𝜎𝐴2 ≤ 𝜎𝐴2
𝐻0 : 𝜎𝐴2 ≥ 𝜎𝐴2
𝑆𝐴2
𝐹= 2
𝑆𝐵
> a0 = mtcars$mpg[which(mtcars$am==0)]
> a1 = mtcars$mpg[which(mtcars$am==1)]
> var.test(a0,a1)
F test to compare two variances
data: a0 and a1
F = 0.38656, num df = 18, denom df = 12, p-value = 0.06691
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.1243721 1.0703429
sample estimates:
ratio of variances
0.3865615
El valor p de la prueba F es p = 0.06691, que es mayor que el nivel de significancia de 0,05. En conclusión,
no existe una diferencia significativa entre las dos varianzas.
Estadística inferencial
Estadística Inferencial – Pruebas de hipótesis
Resumen
Evaluación
Supuesto de
normalidad
Test hipótesis
Shapiro-Wilk
Lillie (KolmogorovSmirnov)
Anderson-Darling
10
Paramétricos
Gráfico
No paramétricos
Una muestra
QQplot
Media
Media y varianza
poblacional conocida,
o n>30
Z-test
Varianza
Media poblacional
conocida y varianza
desconocida o n<=30
T-test
Chi squared
Dos muestras
Proporciones
Z-test
para proporciones
binominales
Media
Pareadas
Paired t-test
Una muestra
Varianza
No pareadas
Welch t-test
F-test
Barlett’s test
Cramer-von Mises
Breusch Pagan Test
Pearson chi-square
test
Score Test
Shapiro-Francia test
Chi-squared test*
Proporciones
Test of Equal or Given
Proportions
Mediana
Wilcoxon Rank
Sum Test
Varianza
Chi-squared test
Dos muestras
Proporciones
Sign test para
proporciones
binomiales
Chi-square test (GoF)
Mediana
Pareada
Wilcoxon Rank
Sum Test
Varianza
No pareada
Mann-Whitney U test
Chi squared
Levene’s test
Proporciones
Chi-squared test
Departamento de Ingeniería Informática
Ingeniería Civil en Informática
ESTADÍSTICA
COMPUTACIONAL
Pruebas de hipótesis para dos muestras (Parte 2)
Clase 25
manuel.villalobos@usach.cl
mónica.villanueva@usach.cl
Descargar