Práctica de AJUSTE DE DISTRIBUCIONES II (ajuste de datos) 1

Anuncio
1
Práctica de AJUSTE DE DISTRIBUCIONES II
(ajuste de datos)
1. Objetivos de la práctica
En esta práctica vamos a ajustar modelos de distribución a datos reales. Un
vez que hayamos hecho esto, podremos utilizar las propiedades de la función
de densidad o distribución para calcular probabilidades.
2. Datos
Para esta práctica se utilizarán los datos “Datosajuste.sf3”
El aspecto del fichero de datos es:
Se proporcionan cuatro variables:
•
•
•
•
Peso: Peso en kg. de 117 estudiantes de ingeniería.
Alturas: Altura en cm. de 60 personas
Espera: Tiempo de espera al llegar a una parada de autobús en hora
punta.
Beneficios: Beneficios antes de impuestos de 130 sucursales de una
entidad bancaria. (En pesetas. 1 pta=166,67 Euros)
3. Ajuste de distribuciones
Vamos a realizar el análisis para la variable PESO. Para ello seleccionamos
las opciones: DESCRIBE-DISTRIBUTIONS-DISTRIBUTION FITTING (UNCENSORED DATA)
2
Y seleccionamos la variable PESO
Se obtiene el siguiente resultado:
3
Parámetros de
la distribución
Icono de
gráficos
Tabular
options
Los parámetros de la distribución ajustada son:
Data variable: peso
117 values ranging from 41,0 to 112,0
Fitted normal distribution:
mean = 69,1709
standard deviation = 10,8503
Es decir el Peso de distribuye como una Normal con media 69.2 y desviación
típica 10.85.
N(69.2, 10.852)
Pinchando en el icono de gráficos,
4
Seleccionamos las opciones marcadas, y maximizando la pantalla, se obtiene:
El primer gráfico (density trace) dibuja una función de densidad a partir de los
datos de PESO. Esta función de densidad sigue exactamente la distribución
de nuestros datos, pero suavizada.
El segundo gráfico es el histograma de nuestros datos con una distribución
ajustada encima. Por defecto la distribución es una normal. Para cambiar de
distribución hay que presionar el botón auxiliar del ratón, analysis options y
elegir la distribución deseada.
5
Como se ha indicado por defecto aparece la normal. En este caso la distribución normal parece ajustar bien a los datos tal como muestra el histograma
Histogram for peso
50
frequency
40
30
20
10
0
37
57
77
97
117
peso
También hay una buena concordancia entre la función de distribución de la
normal la distribución empírica calculada a partir de los datos.
cumulative probability
Normal Distribution
1
0,8
0,6
0,4
0,2
0
41
61
81
101
121
peso
Evidentemente la observación visual del ajuste no es suficiente para decidir si
un modelo es adecuado. Para ello tenemos diversos tests de bondad de ajuste.
6
Para obtenerlos hay que pulsar en el icono amarillo de Tabular Options y elegir
la opción Goodnes of Fit.
En esta sección se obtienen tres tests de bondad de ajuste:
1. Test de la Chi cuadrado
2. Test de Kolmogorov-Smirnof
3. Test de Anderson Darling
Estos tres tests funcionan de una manera similar y proporcionan el p-valor. El
p-valor se estudiará en el tema de contrastes de hipótesis, e indica la probabilidad de encontrar una muestra más desfavorable que la que tenemos si los
datos proceden de una distribución normal.
Cuanto más pequeño es el p-valor más improbable será que la distribución
sea normal. (Ya que estaremos en una situación muy poco probable)
En nuestro caso se obtiene:
7
Goodness-of-Fit Tests for peso
Chi-Square Test
---------------------------------------------------------------------------Lower
Upper
Observed
Expected
Limit
Limit
Frequency
Frequency
Chi-Square
---------------------------------------------------------------------------at or below
53,6975
8
9,00
0,11
53,6975
58,1028
9
9,00
0,00
58,1028
61,1817
11
9,00
0,44
61,1817
63,7197
5
9,00
1,78
63,7197
65,9876
10
9,00
0,11
65,9876
68,1232
18
9,00
9,00
68,1232
70,2186
9
9,00
0,00
70,2186
72,3542
5
9,00
1,78
72,3542
74,6222
8
9,00
0,11
74,6222
77,1602
9
9,00
0,00
77,1602
80,2391
10
9,00
0,11
80,2391
84,6443
6
9,00
1,00
above
84,6443
9
9,00
0,00
---------------------------------------------------------------------------Chi-Square = 14,4446 with 10 d.f.
P-Value = 0,153662
Estimated Kolmogorov statistic DPLUS = 0,0678348
Estimated Kolmogorov statistic DMINUS = 0,0451458
Estimated overall statistic DN = 0,0678348
Approximate P-Value = 0,65457
EDF Statistic
Value
Modified Form
P-Value
--------------------------------------------------------------------Kolmogorov-Smirnov D
0,0678348
0,738397
>0.10*
Anderson-Darling A^2
0,368646
0,37107
0,4231*
--------------------------------------------------------------------*Indicates that the P-Value has been compared to tables of critical values
specially constructed for fitting the currently selected distribution.
Other P-values are based on general tables and may be very conservative.
Los p-valores de los tres tests son superiores a 0.10, y por tanto
mos la hipótesis de que los datos son normales. (En estadística se
de una manera algo especial. En lugar de decir aceptamos que
normales, decimos “No rechazamos que los datos son normales”.
es la misma.)
no rechazarehabla a veces
los datos son
La conclusión
Si a nuestros datos les hubiéramos ajustado una distribución de valores extremos
“Extreme Value” (Para ello hay que presionar el botón alternativo y elegir Análisis
Options)
8
Los resultados hubieran sido:
Histogram for peso
60
frequency
50
40
30
20
10
0
37
57
77
97
117
peso
Ya se ve que el histograma es peor ajustado por esta distribución.
Los tests resultan ser:
Chi cuadrado:
Kolmogorov Smirnov:
Anderson Darling:
p-valor=0.42
p-valor <0.01
p-valor<0.01
Por lo que no aceptaremos que la distribución de valores extremos sea adecuada
para estos datos.
9
4. Cálculo de probabilidades con la distribución ajustada
Una vez ajustada la distribución, se pueden calcular todas las probabilidades a
partir de la función de densidad.
2
En nuestro caso, la normal ajustada tiene parámetros N(69.2, 10.85 )
por lo que para calcular la probabilidad de que un estudiante pese menos de
50kg. Se puede ir a las tablas.
También lo hace directamente el ordenador:
Pinchando Tabular Options y eligiendo Tail Areas y Critical Values:
Tail Areas for peso
area below 55,3368 = 0,101154
area below 62,2538 = 0,261898
area below 69,1709 = 0,5
area below 76,088 = 0,738102
area below 83,0051 = 0,898846
Esta opción nos da las probabilidades de pesar menos de 55,3368 kilos. Para seleccionar el peso deseado –por ejemplo probabilidad de pesar menos de 55 kilos,
se pincha el botón auxiliar del ratón y se elige Pane Options.
10
Poniendo los pesos deseados (55-65-75-85-95) obtenemos las probabilidades de
pesar menos de esos valores.
Tail Areas for peso
area below 55,0 = 0,0957691
area below 65,0 = 0,350336
area below 75,0 = 0,704446
area below 85,0 = 0,927698
area below 95,0 = 0,991355
Es decir
o
o
o
o
o
P(Peso<55)=0.096
P(Peso<65)=0.35
P(Peso<75)=0.70
P(Peso<85)=0.93
P(Peso<95)=0.99
11
5. Ejercicio:
Variable Distribución
elegida
Valores de los
parámetros
Probabilidades
Alturas
P(Altura<160)=
P(Altura<180)=
P(160<Altura<180)=
Espera
P(Espera<5Minutos)=
P(Espera<10 minutos)=
Beneficios
P(Beneficios<50)=
P(Beneficios>100=
Notas sobre distribuciones:
La dirección
http://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm
Tiene una completa lista de las distribuciones habitualmente utilizadas en Ingeniería y sus fórmulas.
Esta dirección pertenece al NIST (National Institute of Standards and Technology) cuya página principal del Handbook de Estadística es:
NIST/SEMATECH e-Handbook of Statistical Methods,
http://www.itl.nist.gov/div898/handbook/ , 2006
Descargar