Pregunta: ¿Cómo podemos decidir si nuestros datos

Anuncio
Pregunta: ¿Cómo podemos decidir si nuestros datos
provienen de una distribución normal?
1) Mirar el Histograma para ver si tiene forma de “campana”
2) Ver la relación entre la media y la mediana
3) Ver los valores de skewness y kurtosis
4) Ver si el “normal probability plot” forma una línea recta
5) Ver el valor de p del test de Wilk-Shapiro para normalidad
Recordar que un valor de skewness cercano a cero habla de simetría. Una distribución
no puede ser normal si no es simétrica (aunque puede ser simétrica y no ser normal).
En líneas generales podemos decir que valores de skewness entre –1 y 1 son
aceptables, valores más extremos que –3 y 3 son bastante asimétricos y los valores
entre –1 y –3 y 1 y 3 son valores un poco grises con los cuales no podemos solo por
este motivo descartar normalidad pero hablan de una mayor asimetría.
Para los valores de kurtosis podemos, como referencia, utilizar los mismos valores.
Sin embargo en STATA el valor de kurtosis correspondiente a una distribución normal
es 3 por lo que valores entre 2 y 4 corresponden a distribuciones normales, valores
entre 0 y 6 son intermedios y valores menores de 0 y mayores a 6 ya hablan de una
distribución mas cercana a “no-normal”.
Con respecto al test de Wilk-Shapiro para normalidad recordemos que la hipótesis nula
del test es que la distribución es normal. Por lo tanto los valores de p menores a 0.05
estarían descartando normalidad.
Al analizar el resultado de este test debemos tener en cuenta otros factores. Por
ejemplo si el tamaño muestral es muy pequeño quizás al test le falte “poder” para
descartar la hipótesis nula aunque la distribución sea no normal. Lo contrario también
es cierto. Con tamaños muestrales muy grandes (y en estos casos en realidad nos
preocupará mucho menos la “normalidad” de la distribución) el test tendrá mucho
“poder” y descartará la hipótesis nula aún con distribuciones muy cercanas a la
normalidad. ATENCIÓN: Ninguno de estos elementos por si solos pueden confirmar o descartar
“normalidad” de una distribución. Siempre deben verse en conjunto y debemos
tomar nuestra decisión basados en todas estas características de la variable.
Dosajes de Colesterol de 37 pacientes catalogados como “pacientes con
hipercolesterolemia” enviados a una licenciada en nutrición para prescripción de dieta.
. summarize colest,d
colest
------------------------------------------------------------Percentiles
Smallest
1%
263
263
5%
266
266
10%
271
268
Obs
37
25%
281
271
Sum of Wgt.
37
50%
294
75%
90%
95%
99%
366
441
523
554
Largest
441
458
523
554
Mean
Std. Dev.
332.4865
73.23843
Variance
Skewness
Kurtosis
5363.868
1.414896
4.383157
. swilk colest
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Pr > z
---------+------------------------------------------------colest |
37
0.81755
6.794
4.013 0.00003
. graph
colest, histogram normal
Fraction
.567568
0
554
263
colest
. pnorm colest
Normal F[(colest-m)/s]
1.00
0.75
0.50
0.25
0.00
0.00
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
Dosajes de colesterol de una serie de 64 pacientes que consultaron a un servicio de
medicina general
. summarize colest,detail
colest
------------------------------------------------------------Percentiles
Smallest
1%
55
55
5%
99
85
10%
125
99
Obs
64
25%
152.5
99
Sum of Wgt.
64
50%
191
75%
90%
95%
99%
237
268
280
305
Largest
280
287
300
305
Mean
Std. Dev.
192.7344
56.26221
Variance
Skewness
Kurtosis
3165.436
-.0984242
2.442368
. swilk colest
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Pr > z
---------+------------------------------------------------colest |
64
0.98974
0.587
-1.152 0.87534
. graph
colest, histogram normal
Fraction
.4
0
305
55
colest
. pnorm colest
Normal F[(colest-m)/s]
1.00
0.75
0.50
0.25
0.00
0.00
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
SENSIBILIDAD ANTE VALORES EXTREMOS
. summarize edad,d
. summarize edad,d
edad
---------------------------------------------------------Percentiles
Smallest
1%
1.453016
1.453016
5%
3.112665
3.037278
10%
3.878722
3.188052
Obs
40
25%
5.274808
3.869009
Sum of Wgt.
40
edad
--------------------------------------------------------Percentiles
Smallest
1%
1.453016
1.453016
5%
3.112665
3.037278
10%
3.878722
3.188052
Obs
40
25%
5.159516
3.869009
Sum of Wgt.
40
50%
50%
8.85268
75%
90%
95%
99%
10.41394
13.73266
15.92249
52
Largest
14.42
14.65665
17.18833
52
Mean
Std. Dev.
9.348738
7.746402
Variance
Skewness
Kurtosis
60.00674
4.269016
24.29722
. swilk edad
8.732173
75%
90%
95%
99%
10.22541
12.81972
14.53833
17.18833
Largest
13.04532
14.42
14.65665
17.18833
Mean
Std. Dev.
8.178738
3.521322
Variance
Skewness
Kurtosis
12.39971
.3090739
2.777882
. swilk edad
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Pr > z
---------+---------------------------------------------edad |
40
0.56306
17.271
5.996 0.00000
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Pr > z
---------+---------------------------------------------edad |
40
0.97568
0.961 -0.083 0.53319
.85
Fraction
Fraction
.4
0
0
52
1.45302
1.45302
17.1883
edad
1.00
1.00
0.75
0.75
Normal F[(edad-m)/s]
Normal F[(edad-m)/s]
edad
0.50
0.25
0.50
0.25
0.00
0.00
0.00
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
0.00
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
COSTO DE UNA DETERMINADA CIRUGÍA EN 65 PACIENTES
. summarize costo,d
costo
------------------------------------------------------------Percentiles
Smallest
1%
698
698
5%
698
698
10%
745
698
Obs
65
25%
901
698
Sum of Wgt.
65
50%
1001
75%
90%
95%
99%
1203
2808
3014
4125
Largest
3014
3125
3908
4125
Mean
Std. Dev.
1308.6
780.5568
Variance
Skewness
Kurtosis
609268.9
2.033837
6.417967
. swilk costo
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Pr > z
---------+------------------------------------------------costo |
65
0.68608
18.198
6.283 0.00000
.784615
Fraction
Normal F[(costo-m)/s]
1.00
0.75
0.50
0.25
0.00
0.00
0
698
4125
costo
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
. ladder costo
Transformation
formula
Chi-sq(2)
P(Chi-sq)
-----------------------------------------------------------------cube
costo^3
52.87
0.000
square
costo^2
41.09
0.000
raw
costo
27.33
0.000
square-root
sqrt(costo)
20.33
0.000
log
log(costo)
13.72
0.001
reciprocal root
1/sqrt(costo)
8.16
0.017
reciprocal
1/costo
4.41
0.110
reciprocal square
1/(costo^2)
1.57
0.457
reciprocal cube
1/(costo^3)
5.28
0.071
cube
square
.876923
identity
.830769
0
3.4e+08
7.0e+10
.769231
0
487204
sqrt
0
1.7e+07
log
64.2262
8.32482
0
-.037851
1/square
.276923
0
-.001433
.384615
0
6.54822
inverse
0
-2.1e-06
-.01557
1/cube
.276923
-.000242
4125
1/sqrt
.446154
Fraction
.615385
0
26.4197
698
.292308
-5.9e-08
0
-2.9e-09
costo
Histograms by Transformation
-1.4e-11
. generate costo_n=1/(costo^2)
. summarize costo_n,d
costo_n
------------------------------------------------------------Percentiles
Smallest
1%
5.88e-08
5.88e-08
5%
1.10e-07
6.55e-08
10%
1.27e-07
1.02e-07
Obs
65
25%
6.91e-07
1.10e-07
Sum of Wgt.
65
50%
75%
90%
95%
99%
9.98e-07
Largest
2.05e-06
2.05e-06
2.05e-06
2.05e-06
1.23e-06
1.80e-06
2.05e-06
2.05e-06
Mean
Std. Dev.
9.74e-07
5.51e-07
Variance
Skewness
Kurtosis
3.03e-13
.1103392
2.371289
. swilk costo_n
Shapiro-Wilk W test for normal data
Variable |
Obs
W
V
z
Pr > z
---------+------------------------------------------------costo_n |
65
0.97755
1.302
0.571 0.28406
.384615
Fraction
Normal F[(costo_n-m)/s]
1.00
0.75
0.50
0.25
0.00
0.00
0
5.9e-08
2.1e-06
costo_n
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
Descargar