1 Práctica de AJUSTE DE DISTRIBUCIONES II (ajuste de datos) 1. Objetivos de la práctica En esta práctica vamos a ajustar modelos de distribución a datos reales. Un vez que hayamos hecho esto, podremos utilizar las propiedades de la función de densidad o distribución para calcular probabilidades. 2. Datos Para esta práctica se utilizarán los datos “Datosajuste.sf3” El aspecto del fichero de datos es: Se proporcionan cuatro variables: • • • • Peso: Peso en kg. de 117 estudiantes de ingeniería. Alturas: Altura en cm. de 60 personas Espera: Tiempo de espera al llegar a una parada de autobús en hora punta. Beneficios: Beneficios antes de impuestos de 130 sucursales de una entidad bancaria. (En pesetas. 1 pta=166,67 Euros) 3. Ajuste de distribuciones Vamos a realizar el análisis para la variable PESO. Para ello seleccionamos las opciones: DESCRIBE-DISTRIBUTIONS-DISTRIBUTION FITTING (UNCENSORED DATA) 2 Y seleccionamos la variable PESO Se obtiene el siguiente resultado: 3 Parámetros de la distribución Icono de gráficos Tabular options Los parámetros de la distribución ajustada son: Data variable: peso 117 values ranging from 41,0 to 112,0 Fitted normal distribution: mean = 69,1709 standard deviation = 10,8503 Es decir el Peso de distribuye como una Normal con media 69.2 y desviación típica 10.85. N(69.2, 10.852) Pinchando en el icono de gráficos, 4 Seleccionamos las opciones marcadas, y maximizando la pantalla, se obtiene: El primer gráfico (density trace) dibuja una función de densidad a partir de los datos de PESO. Esta función de densidad sigue exactamente la distribución de nuestros datos, pero suavizada. El segundo gráfico es el histograma de nuestros datos con una distribución ajustada encima. Por defecto la distribución es una normal. Para cambiar de distribución hay que presionar el botón auxiliar del ratón, analysis options y elegir la distribución deseada. 5 Como se ha indicado por defecto aparece la normal. En este caso la distribución normal parece ajustar bien a los datos tal como muestra el histograma Histogram for peso 50 frequency 40 30 20 10 0 37 57 77 97 117 peso También hay una buena concordancia entre la función de distribución de la normal la distribución empírica calculada a partir de los datos. cumulative probability Normal Distribution 1 0,8 0,6 0,4 0,2 0 41 61 81 101 121 peso Evidentemente la observación visual del ajuste no es suficiente para decidir si un modelo es adecuado. Para ello tenemos diversos tests de bondad de ajuste. 6 Para obtenerlos hay que pulsar en el icono amarillo de Tabular Options y elegir la opción Goodnes of Fit. En esta sección se obtienen tres tests de bondad de ajuste: 1. Test de la Chi cuadrado 2. Test de Kolmogorov-Smirnof 3. Test de Anderson Darling Estos tres tests funcionan de una manera similar y proporcionan el p-valor. El p-valor se estudiará en el tema de contrastes de hipótesis, e indica la probabilidad de encontrar una muestra más desfavorable que la que tenemos si los datos proceden de una distribución normal. Cuanto más pequeño es el p-valor más improbable será que la distribución sea normal. (Ya que estaremos en una situación muy poco probable) En nuestro caso se obtiene: 7 Goodness-of-Fit Tests for peso Chi-Square Test ---------------------------------------------------------------------------Lower Upper Observed Expected Limit Limit Frequency Frequency Chi-Square ---------------------------------------------------------------------------at or below 53,6975 8 9,00 0,11 53,6975 58,1028 9 9,00 0,00 58,1028 61,1817 11 9,00 0,44 61,1817 63,7197 5 9,00 1,78 63,7197 65,9876 10 9,00 0,11 65,9876 68,1232 18 9,00 9,00 68,1232 70,2186 9 9,00 0,00 70,2186 72,3542 5 9,00 1,78 72,3542 74,6222 8 9,00 0,11 74,6222 77,1602 9 9,00 0,00 77,1602 80,2391 10 9,00 0,11 80,2391 84,6443 6 9,00 1,00 above 84,6443 9 9,00 0,00 ---------------------------------------------------------------------------Chi-Square = 14,4446 with 10 d.f. P-Value = 0,153662 Estimated Kolmogorov statistic DPLUS = 0,0678348 Estimated Kolmogorov statistic DMINUS = 0,0451458 Estimated overall statistic DN = 0,0678348 Approximate P-Value = 0,65457 EDF Statistic Value Modified Form P-Value --------------------------------------------------------------------Kolmogorov-Smirnov D 0,0678348 0,738397 >0.10* Anderson-Darling A^2 0,368646 0,37107 0,4231* --------------------------------------------------------------------*Indicates that the P-Value has been compared to tables of critical values specially constructed for fitting the currently selected distribution. Other P-values are based on general tables and may be very conservative. Los p-valores de los tres tests son superiores a 0.10, y por tanto mos la hipótesis de que los datos son normales. (En estadística se de una manera algo especial. En lugar de decir aceptamos que normales, decimos “No rechazamos que los datos son normales”. es la misma.) no rechazarehabla a veces los datos son La conclusión Si a nuestros datos les hubiéramos ajustado una distribución de valores extremos “Extreme Value” (Para ello hay que presionar el botón alternativo y elegir Análisis Options) 8 Los resultados hubieran sido: Histogram for peso 60 frequency 50 40 30 20 10 0 37 57 77 97 117 peso Ya se ve que el histograma es peor ajustado por esta distribución. Los tests resultan ser: Chi cuadrado: Kolmogorov Smirnov: Anderson Darling: p-valor=0.42 p-valor <0.01 p-valor<0.01 Por lo que no aceptaremos que la distribución de valores extremos sea adecuada para estos datos. 9 4. Cálculo de probabilidades con la distribución ajustada Una vez ajustada la distribución, se pueden calcular todas las probabilidades a partir de la función de densidad. 2 En nuestro caso, la normal ajustada tiene parámetros N(69.2, 10.85 ) por lo que para calcular la probabilidad de que un estudiante pese menos de 50kg. Se puede ir a las tablas. También lo hace directamente el ordenador: Pinchando Tabular Options y eligiendo Tail Areas y Critical Values: Tail Areas for peso area below 55,3368 = 0,101154 area below 62,2538 = 0,261898 area below 69,1709 = 0,5 area below 76,088 = 0,738102 area below 83,0051 = 0,898846 Esta opción nos da las probabilidades de pesar menos de 55,3368 kilos. Para seleccionar el peso deseado –por ejemplo probabilidad de pesar menos de 55 kilos, se pincha el botón auxiliar del ratón y se elige Pane Options. 10 Poniendo los pesos deseados (55-65-75-85-95) obtenemos las probabilidades de pesar menos de esos valores. Tail Areas for peso area below 55,0 = 0,0957691 area below 65,0 = 0,350336 area below 75,0 = 0,704446 area below 85,0 = 0,927698 area below 95,0 = 0,991355 Es decir o o o o o P(Peso<55)=0.096 P(Peso<65)=0.35 P(Peso<75)=0.70 P(Peso<85)=0.93 P(Peso<95)=0.99 11 5. Ejercicio: Variable Distribución elegida Valores de los parámetros Probabilidades Alturas P(Altura<160)= P(Altura<180)= P(160<Altura<180)= Espera P(Espera<5Minutos)= P(Espera<10 minutos)= Beneficios P(Beneficios<50)= P(Beneficios>100= Notas sobre distribuciones: La dirección http://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm Tiene una completa lista de las distribuciones habitualmente utilizadas en Ingeniería y sus fórmulas. Esta dirección pertenece al NIST (National Institute of Standards and Technology) cuya página principal del Handbook de Estadística es: NIST/SEMATECH e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/ , 2006