Pregunta: ¿Cómo podemos decidir si nuestros datos provienen de una distribución normal? 1) Mirar el Histograma para ver si tiene forma de “campana” 2) Ver la relación entre la media y la mediana 3) Ver los valores de skewness y kurtosis 4) Ver si el “normal probability plot” forma una línea recta 5) Ver el valor de p del test de Wilk-Shapiro para normalidad Recordar que un valor de skewness cercano a cero habla de simetría. Una distribución no puede ser normal si no es simétrica (aunque puede ser simétrica y no ser normal). En líneas generales podemos decir que valores de skewness entre –1 y 1 son aceptables, valores más extremos que –3 y 3 son bastante asimétricos y los valores entre –1 y –3 y 1 y 3 son valores un poco grises con los cuales no podemos solo por este motivo descartar normalidad pero hablan de una mayor asimetría. Para los valores de kurtosis podemos, como referencia, utilizar los mismos valores. Sin embargo en STATA el valor de kurtosis correspondiente a una distribución normal es 3 por lo que valores entre 2 y 4 corresponden a distribuciones normales, valores entre 0 y 6 son intermedios y valores menores de 0 y mayores a 6 ya hablan de una distribución mas cercana a “no-normal”. Con respecto al test de Wilk-Shapiro para normalidad recordemos que la hipótesis nula del test es que la distribución es normal. Por lo tanto los valores de p menores a 0.05 estarían descartando normalidad. Al analizar el resultado de este test debemos tener en cuenta otros factores. Por ejemplo si el tamaño muestral es muy pequeño quizás al test le falte “poder” para descartar la hipótesis nula aunque la distribución sea no normal. Lo contrario también es cierto. Con tamaños muestrales muy grandes (y en estos casos en realidad nos preocupará mucho menos la “normalidad” de la distribución) el test tendrá mucho “poder” y descartará la hipótesis nula aún con distribuciones muy cercanas a la normalidad. ATENCIÓN: Ninguno de estos elementos por si solos pueden confirmar o descartar “normalidad” de una distribución. Siempre deben verse en conjunto y debemos tomar nuestra decisión basados en todas estas características de la variable. Dosajes de Colesterol de 37 pacientes catalogados como “pacientes con hipercolesterolemia” enviados a una licenciada en nutrición para prescripción de dieta. . summarize colest,d colest ------------------------------------------------------------Percentiles Smallest 1% 263 263 5% 266 266 10% 271 268 Obs 37 25% 281 271 Sum of Wgt. 37 50% 294 75% 90% 95% 99% 366 441 523 554 Largest 441 458 523 554 Mean Std. Dev. 332.4865 73.23843 Variance Skewness Kurtosis 5363.868 1.414896 4.383157 . swilk colest Shapiro-Wilk W test for normal data Variable | Obs W V z Pr > z ---------+------------------------------------------------colest | 37 0.81755 6.794 4.013 0.00003 . graph colest, histogram normal Fraction .567568 0 554 263 colest . pnorm colest Normal F[(colest-m)/s] 1.00 0.75 0.50 0.25 0.00 0.00 0.25 0.50 Empirical P[i] = i/(N+1) 0.75 1.00 Dosajes de colesterol de una serie de 64 pacientes que consultaron a un servicio de medicina general . summarize colest,detail colest ------------------------------------------------------------Percentiles Smallest 1% 55 55 5% 99 85 10% 125 99 Obs 64 25% 152.5 99 Sum of Wgt. 64 50% 191 75% 90% 95% 99% 237 268 280 305 Largest 280 287 300 305 Mean Std. Dev. 192.7344 56.26221 Variance Skewness Kurtosis 3165.436 -.0984242 2.442368 . swilk colest Shapiro-Wilk W test for normal data Variable | Obs W V z Pr > z ---------+------------------------------------------------colest | 64 0.98974 0.587 -1.152 0.87534 . graph colest, histogram normal Fraction .4 0 305 55 colest . pnorm colest Normal F[(colest-m)/s] 1.00 0.75 0.50 0.25 0.00 0.00 0.25 0.50 Empirical P[i] = i/(N+1) 0.75 1.00 SENSIBILIDAD ANTE VALORES EXTREMOS . summarize edad,d . summarize edad,d edad ---------------------------------------------------------Percentiles Smallest 1% 1.453016 1.453016 5% 3.112665 3.037278 10% 3.878722 3.188052 Obs 40 25% 5.274808 3.869009 Sum of Wgt. 40 edad --------------------------------------------------------Percentiles Smallest 1% 1.453016 1.453016 5% 3.112665 3.037278 10% 3.878722 3.188052 Obs 40 25% 5.159516 3.869009 Sum of Wgt. 40 50% 50% 8.85268 75% 90% 95% 99% 10.41394 13.73266 15.92249 52 Largest 14.42 14.65665 17.18833 52 Mean Std. Dev. 9.348738 7.746402 Variance Skewness Kurtosis 60.00674 4.269016 24.29722 . swilk edad 8.732173 75% 90% 95% 99% 10.22541 12.81972 14.53833 17.18833 Largest 13.04532 14.42 14.65665 17.18833 Mean Std. Dev. 8.178738 3.521322 Variance Skewness Kurtosis 12.39971 .3090739 2.777882 . swilk edad Shapiro-Wilk W test for normal data Variable | Obs W V z Pr > z ---------+---------------------------------------------edad | 40 0.56306 17.271 5.996 0.00000 Shapiro-Wilk W test for normal data Variable | Obs W V z Pr > z ---------+---------------------------------------------edad | 40 0.97568 0.961 -0.083 0.53319 .85 Fraction Fraction .4 0 0 52 1.45302 1.45302 17.1883 edad 1.00 1.00 0.75 0.75 Normal F[(edad-m)/s] Normal F[(edad-m)/s] edad 0.50 0.25 0.50 0.25 0.00 0.00 0.00 0.25 0.50 Empirical P[i] = i/(N+1) 0.75 1.00 0.00 0.25 0.50 Empirical P[i] = i/(N+1) 0.75 1.00 COSTO DE UNA DETERMINADA CIRUGÍA EN 65 PACIENTES . summarize costo,d costo ------------------------------------------------------------Percentiles Smallest 1% 698 698 5% 698 698 10% 745 698 Obs 65 25% 901 698 Sum of Wgt. 65 50% 1001 75% 90% 95% 99% 1203 2808 3014 4125 Largest 3014 3125 3908 4125 Mean Std. Dev. 1308.6 780.5568 Variance Skewness Kurtosis 609268.9 2.033837 6.417967 . swilk costo Shapiro-Wilk W test for normal data Variable | Obs W V z Pr > z ---------+------------------------------------------------costo | 65 0.68608 18.198 6.283 0.00000 .784615 Fraction Normal F[(costo-m)/s] 1.00 0.75 0.50 0.25 0.00 0.00 0 698 4125 costo 0.25 0.50 Empirical P[i] = i/(N+1) 0.75 1.00 . ladder costo Transformation formula Chi-sq(2) P(Chi-sq) -----------------------------------------------------------------cube costo^3 52.87 0.000 square costo^2 41.09 0.000 raw costo 27.33 0.000 square-root sqrt(costo) 20.33 0.000 log log(costo) 13.72 0.001 reciprocal root 1/sqrt(costo) 8.16 0.017 reciprocal 1/costo 4.41 0.110 reciprocal square 1/(costo^2) 1.57 0.457 reciprocal cube 1/(costo^3) 5.28 0.071 cube square .876923 identity .830769 0 3.4e+08 7.0e+10 .769231 0 487204 sqrt 0 1.7e+07 log 64.2262 8.32482 0 -.037851 1/square .276923 0 -.001433 .384615 0 6.54822 inverse 0 -2.1e-06 -.01557 1/cube .276923 -.000242 4125 1/sqrt .446154 Fraction .615385 0 26.4197 698 .292308 -5.9e-08 0 -2.9e-09 costo Histograms by Transformation -1.4e-11 . generate costo_n=1/(costo^2) . summarize costo_n,d costo_n ------------------------------------------------------------Percentiles Smallest 1% 5.88e-08 5.88e-08 5% 1.10e-07 6.55e-08 10% 1.27e-07 1.02e-07 Obs 65 25% 6.91e-07 1.10e-07 Sum of Wgt. 65 50% 75% 90% 95% 99% 9.98e-07 Largest 2.05e-06 2.05e-06 2.05e-06 2.05e-06 1.23e-06 1.80e-06 2.05e-06 2.05e-06 Mean Std. Dev. 9.74e-07 5.51e-07 Variance Skewness Kurtosis 3.03e-13 .1103392 2.371289 . swilk costo_n Shapiro-Wilk W test for normal data Variable | Obs W V z Pr > z ---------+------------------------------------------------costo_n | 65 0.97755 1.302 0.571 0.28406 .384615 Fraction Normal F[(costo_n-m)/s] 1.00 0.75 0.50 0.25 0.00 0.00 0 5.9e-08 2.1e-06 costo_n 0.25 0.50 Empirical P[i] = i/(N+1) 0.75 1.00