Identificación y descripción gráfica de los datos FIABILIDAD (II): IDENTIFICACIÓN Y DESCRIPCIÓN GRÁFICA DE LOS DATOS Autores: Ángel A. Juan Pérez (ajuanp@uoc.edu), Rafael García Martín (rgarciamart@uoc.edu). RELACIÓN CON OTROS MATH-BLOCS__________________________________ Este math-block forma parte de una serie de 8 documentos relacionados todos ellos con la Fiabilidad de componentes desde un punto de vista estadístico: • • • • • • • • Conceptos Básicos (I). Identificación y descripción gráfica de los datos (II). Análisis paramétrico de los tiempos de fallo (III). Análisis no paramétrico de los tiempos de fallo (IV). Comparación no paramétrica de muestras (V). Tests de vida acelerada (VI). Modelos de regresión para observaciones censuradas (VII). Análisis Probit (Éxito / fracaso) (VIII). MAPA CONCEPTUAL_________________________________________________ Gráficos de probabilidad Identificación gráfica de la distribución de ajuste (Minitab) Fiabilidad (II): Identif. y descripción gráfica Estadístico Anderson-Darling Paramétrica Descripción gráfica de la distribución de ajuste (Minitab) Proyecto e-Math Financiado por la Secretaría de Estado de Educación y Universidades (MECD) No paramétrica 1 Identificación y descripción gráfica de los datos INTRODUCCIÓN_____________________________________________________ Supongamos que se dispone de una relación de tiempos de fallo asociados a un determinado dispositivo, i.e., se tienen n observaciones de la v.a. T = “tiempo transcurrido hasta que se produce el fallo”. Lo primero que convendría hacer es tratar de identificar alguna distribución conocida a la cual se ajustasen bien las observaciones, pues ello nos simplificaría el análisis descriptivo de los datos, así como la realización de inferencias sobre la población. En muchas ocasiones será posible identificar la distribución que mejor se aproxima a las observaciones mediante el uso de gráficos de probabilidad. Este tipo de gráficos muestran la f.d. linealizada de una distribución teórica junto con una nube de puntos que representan estimaciones (no paramétricas) puntuales de la f.d. de T. Evidentemente, cuanto más se aproxime la nube de puntos a la recta que aparece en el gráfico, tanto mejor será el ajuste. Si se lograse aproximar la distribución de T mediante alguna distribución teórica conocida, sería posible usar esta última para representar gráficamente estimaciones de la función de supervivencia, de la f.d.p., y de la tasa de fallos (descripción paramétrica) de las observaciones. En caso contrario, será necesario recurrir a la estimación puntual de la f.d. asociada a T para representar gráficamente estimaciones de las funciones anteriores (descripción no paramétrica). En este math-block se hará uso del programa estadístico MINITAB para identificar y describir gráficamente la distribución que mejor se ajuste a un conjunto de observaciones que usaremos como ejemplo. Las posibles distribuciones de ajuste son: la normal, la lognormal (base e), la Weibull, y la exponencial. GRÁFICOS DE PROBABILIDAD_________________________________________ Al representar gráficamente las funciones de distribución (f.d.) de las diferentes distribuciones teóricas, se obtienen curvas muy similares, muchas de ellas difíciles de ser identificadas a simple vista. Es por ello que se utilizan los gráficos de probabilidad, los cuales hacen uso de escalas especiales en los ejes, de manera que al representar la f.d. ésta tenga forma lineal. El primer paso será pues encontrar la transformación adecuada para t y F(t) de modo que al representar t vs. F(t) se obtenga una función lineal. Ejemplo (linealización de una Weibull): La f.d. asociada a una distribución Weibull de dos parámetros (α, β) viene dada por la expresión: F(t) = 1 – exp{-(t/α)β} con α, β > 0 Esta función puede ser linealizada (i.e., puesta de la forma: y = a + bx) como sigue: F(t) = 1 – exp{-(t/α)β} ⇒ ln(1-F(t)) = ln(exp{-(t/α)β}) ⇒ ln(1-F(t)) = -(t/α)β ⇒ ⇒ ln(-ln(1-F(t))) = β⋅ln(t/α) ⇒ ln(ln(1-F(t))-1) = β⋅ln(t) - β⋅ln(α) Tomando ahora y = ln(ln(1-F(t))-1) , y x = ln(t) la f.d. puede rescribirse en forma lineal como: y = β⋅x - β⋅ln(α). A continuación se representa gráficamente la f.d. de una Weibull (con escala α = 10 y forma β = 4) y su versión linealizada: Proyecto e-Math Financiado por la Secretaría de Estado de Educación y Universidades (MECD) 2 Identificación y descripción gráfica de los datos Escala (alpha) = Forma (beta) = 10 4 f.d. Weibull, escala = 10 forma = 4 WEIBULL 1,00 F(t) x = ln(t) y = ln(ln(1-F(t))-1) 0,80 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0,00 0,00 0,01 0,03 0,06 0,12 0,21 0,34 0,48 0,63 0,77 0,87 0,94 0,98 0,99 1,00 0,00 0,69 1,10 1,39 1,61 1,79 1,95 2,08 2,20 2,30 2,40 2,48 2,56 2,64 2,71 2,77 -9,2 -6,4 -4,8 -3,7 -2,8 -2,0 -1,4 -0,9 -0,4 0,0 0,4 0,7 1,0 1,3 1,6 1,9 0,60 F(t) t 0,40 0,20 0,00 0 5 10 15 t f.d. Weibull linealizada, escala = 10 forma = 4 3,0 1,0 y -1,0 -3,0 -5,0 -7,0 -9,0 0,00 0,50 1,00 x 1,50 2,00 2,50 Una vez conocidas las transformaciones que permiten linealizar la f.d. asociada a una distribución, es posible construir una plantilla especial (con los ejes graduados de forma adecuada) sobre la cual representar una nube de puntos que contenga cada uno de los tiempos de fallo observados (eje x) junto con el valor (estimado) de la f.d. asociado a dicha observación (eje y). Para cada punto (xj,yj), el valor xj vendrá dado por la j-ésima observación tj (instante en que se ha producido el fallo j-ésimo). Más complicado será hallar el valor de la coordenada yj, la cual representará el valor estimado de F(tj). Es usual estimar el dicho valor mediante los llamados rangos medianos, los cuales se pueden calcular, en el caso de la distribución Weibull con observaciones completas (sin censura), mediante la ecuación que se muestra a continuación. Para profundizar más sobre este método, se recomiendan las referencias bibliográficas Hald (1952a) [9] y Hald (1952b) [10]: F(tj) ≈ rango mediano j-ésimo = ( 1 + F(0,5; m,n) ⋅(n – j + 1) / j )-1 donde: F(0,5; m,n) es la mediana de una F-Snedecor con m = 2(n – j + 1) y n = 2j grados de libertad, j es el orden del fallo, y n es el tamaño muestral. Como se verá en el apartado siguiente, los programas estadísticos actuales (como MINITAB) son capaces de realizar los cálculos anteriores, automatizando así el proceso de construcción de estos gráficos de probabilidad. Cuando se tengan ya representados todos los puntos (x,y) asociados a las observaciones, se deberá hallar la recta de regresión asociada, la cual corresponderá a la f.d. de la distribución elegida cuyos parámetros mejor se ajusten a las observaciones. Para ver si las observaciones pueden aproximarse bien por dicha distribución, habrá que analizar (gráficamente o mediante el estadístico AndersonDarling) si los puntos representados se encuentran suficientemente próximos a la recta, prestando especial atención a los valores de los extremos. Proyecto e-Math Financiado por la Secretaría de Estado de Educación y Universidades (MECD) 3 3,00 Identificación y descripción gráfica de los datos IDENTIFICACIÓN GRÁFICA DE LA DISTRIB. DE AJUSTE____________________ Ejemplo (identificación gráfica): se considerará aquí el caso de una compañía que fabrica cubiertas para motores, cubiertas que pueden estropearse rápidamente si se ven sometidas a temperaturas elevadas. El archivo Motores.mtw contiene los tiempos de fallo (en meses) de las cubiertas a dos temperaturas distintas. La primera muestra (Tiemp80) consta de 50 cubiertas sometidas a 80º C; la segunda muestra (Tiemp100) abarca 40 cubiertas a 100º C. Algunas de las cubiertas que se empezaron a estudiar, o bien fallaron debido a causas distintas a la temperatura, o bien no continuaron en el estudio por motivos diversos y, por tanto, se desconoce el instante en que fallaron (observaciones censuradas a derecha). En las columnas Comp80 y Comp100 se especifica si los tiempos obtenidos pertenecen a observaciones completas (1) o a observaciones censuradas (0). Una vez introducidos los datos, seleccionamos Stat > Reliability/Survival > Distribution ID Plot-Right Cens... : Se eligen las variables que contienen los tiempos de fallo, así como las columnas en las que se indica si ha habido o no censura (cada una de éstas se asociará a una variable según el orden de entrada): Proyecto e-Math Financiado por la Secretaría de Estado de Educación y Universidades (MECD) 4 Identificación y descripción gráfica de los datos Observar que una alternativa al uso de columnas indicadoras de censura sería fijar el tiempo que ha de transcurrir (o el número de observaciones que han de fallar) como indicador de censura (censura por tiempo o por fallos). El programa ofrece una serie de opciones, como la de escoger entre los siguientes métodos no paramétricos para la obtención de los gráficos: Herd-Jonhson, Kaplan-Meier, y Kaplan-Meier modificado (ver el math-block Fiabilidad IV). Por defecto, en el caso de observaciones censuradas, MINITAB utiliza el método Kaplan-Meier modificado: Si los puntos representados en el gráfico están suficientemente próximos a la recta, podremos dar por bueno el ajuste de las observaciones mediante la distribución teórica elegida (resulta conveniente prestar atención especial a los valores de los extremos). Como se observa en los gráficos siguientes, la distribución que mejor se ajusta a los datos es la lognormal (base e). Por su parte, el estadístico Anderson-Darling nos da una medida de lo alejadas que se encuentran las observaciones de las recta que representa las función de distribución. Cuanto mejor sea el ajuste, tanto menor será dicho estadístico. En este caso vemos que el menor valor que toma el estadístico AD corresponde a la distribución lognormal (67,22 para la muestra a 80º C y 16,50 para la muestra a 100º C), lo que confirma que es esta distribución la que mejor se ajusta a las observaciones: DNI distribución tiempos de fallo de cubiertas ML E stim ates - Cens oring Colum n in Com p80...Com p100 Lognormal base e Tiemp80 99 99 95 90 80 70 60 50 40 30 Tiemp100 95 Anderson-D arling (adj) Percent Percent Weibull 20 10 5 80 70 60 50 40 30 20 Weibull 67,64; 16,60 Lognormal bas e e 67,22; 16,50 10 3 2 Ex ponential 5 1 70,33; 18,19 1 Normal 10 100 10 Exponential 100 Normal 99 99 98 95 67,73; 17,03 97 Percent Percent 95 90 80 80 70 60 50 40 30 20 70 60 50 10 5 30 10 1 0 100 200 300 400 0 50 100 Proyecto e-Math Financiado por la Secretaría de Estado de Educación y Universidades (MECD) 5 Identificación y descripción gráfica de los datos DESCRIPCIÓN GRÁFICA DE LOS DATOS________________________________ Una vez se haya tratado de ajustar los tiempos de fallo mediante alguna distribución conocida, será conveniente realizar una descripción gráfica de las observaciones. Si se ha logrado identificar la distribución de los tiempos de fallo, se optará por un enfoque paramétrico. Si, por el contrario, las observaciones no se ajustan a ninguna de las cuatro distribuciones propuestas (exponencial, Weibull, normal y lognormal), se optará por usar métodos no paramétricos. El enfoque paramétrico incluye los siguientes gráficos: f.d.p., función de supervivencia, f.d. (linealizada), y tasa de fallo. La opción no paramétrica incluye un gráfico de la función de supervivencia (basado en Kaplan-Meier) y otro de la función tasa de fallo. Ejemplo (descripción paramétrica): Siguiendo con el ejemplo anterior de las cubiertas, se utilizará la distribución lognormal (base e) para hacer una descripción completa de las variables que interesan: Gráficas distribución de datos ML Estimates - Censoring Column in Comp80...Comp100 Probability Density Function Lognormal base e Probability 0,02 Tiemp80 Tiemp100 99 95 Percent 90 0,01 80 70 60 50 40 30 20 Location Scale A D* F/C 4,0927 0,4862 67,22 37/13 3,6287 0,7309 16,50 34/ 6 10 5 1 0,00 0 100 10 200 Survival Function 100 Hazard Function Tiemp80 Tiemp100 1,0 0,03 0,9 0,8 0,02 0,6 0,5 Rate Probability 0,7 0,4 0,3 0,01 0,2 0,1 0,0 0,00 0 100 200 0 100 200 Las cuatro gráficas anteriores describen la distribución de los tiempos de fallo de las cubiertas para dos niveles diferentes de temperatura. A partir de las mismas, es posible determinar, p.e., cuánto más probable resulta el que las cubiertas fallen si se encuentran sometidas a una temperatura de 100º C que si lo están a una de 80º C. Proyecto e-Math Financiado por la Secretaría de Estado de Educación y Universidades (MECD) 6 Identificación y descripción gráfica de los datos Así, p.e., se observa (a partir del gráfico de supervivencia) que, tras 50 meses, sólo sobrevivirán (aproximadamente) un 30% de las cubiertas sometidas a 100º C, mientras que el porcentaje de supervivientes a los 50 meses sube hasta (aproximadamente) un 65% para las cubiertas sometidas a 80º C. Ejemplo (descripción no paramétrica): Si se hubiese optado por un método no paramétrico (sin suponer que los datos pueden ajustarse por una determinada distribución teórica), los resultados hubiesen sido los siguientes: Gráficas distribución de datos Kaplan-Meier Method - Censoring Column in Comp80...Comp100 Kaplan-Meier Survival Function 1,0 Tiemp80 Tiemp100 Probability 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 10 20 30 40 50 60 70 80 60 70 80 Nonparametric Hazard Function Rate 0,2 0,1 0,0 0 10 20 30 40 50 A partir de las funciones de supervivencia se aprecia que hay una sustancial diferencia entre los tiempos de fallo de las cubiertas a 80º C y los de las cubiertas a 100º C: claramente, a una temperatura de 80º C la mayor parte de las cubiertas perdura durante más tiempo que a 100º C. Proyecto e-Math Financiado por la Secretaría de Estado de Educación y Universidades (MECD) 7 Identificación y descripción gráfica de los datos Por su parte, la gráfica de las tasas de riesgo muestra dos funciones crecientes, siendo la de mayor pendiente la asociada a las cubiertas que soportan más temperatura. Nuevamente, se aprecia cómo transcurridos 50 meses, solo sobrevivirán aprox. un 30% de las cubiertas sometidas a 100º C, mientras que este porcentaje llega al 65-70% para cubiertas a 80º C. Notar, además, que aproximadamente un 50% de las cubiertas a 100º C habrán fallado entre los 35 y 40 meses. Por otro lado, en el caso de las cubiertas a 80º C, un 50% de las mismas sobrevivirá hasta los 55-60 meses. BIBLIOGRAFÍA______________________________________________________ [1]. Cramer, H., Mathematical Methods of Statistics, Princeton University Press, Princeton, NJ, 1946. [2]. Davis, D.J., An Analysis of Some Failure Data, J. Am. Stat. Assoc., Vol. 47, p. 113, 1952. [3]. Dietrich, D., SIE 530 Engineering Statistics Lecture Notes, The University of Arizona, Tucson, Arizona. [4]. Dudewicz, E.J., An Analysis of Some Failure Data, J. Am. Stat. Assoc., Vol. 47, p. 113, 1952. [5]. Dudewicz, E.J., and Mishra, Satya N., Modern Mathematical Statistics, John Wiley & Sons, Inc., New York, 1988. [6]. Evans, Ralph A., The Lognormal Distribution is Not a Wearout Distribution, Reliability Group Newsletter, IEEE, Inc., 345 East 47th St., New York, N.Y. 10017, p. 9, Vol. XV, Issue 1, January 1970. [7]. Glasstone, S., Laidler, K. J., and Eyring, H. E., The Theory of Rate Processes, McGraw Hill, NY, 1941. [8]. Hahn, Gerald J., and Shapiro, Samuel S., Statistical Models in Engineering, John Wiley & Sons, Inc., New York, 355 pp., 1967. [9]. Hald, A., Statistical Theory with Engineering Applications, John Wiley & Sons, Inc., New York, 783 pp., 1952. [10]. Hald, A., Statistical Tables and Formulas, John Wiley & Sons, Inc., New York, 97 pp., 1952. [11]. Hirose, Hideo, Maximum Likelihood Estimation in the 3-parameter Weibull Distribution - A Look through the Generalized Extreme-value Distribution, IEEE Transactions on Dielectrics and Electrical Insulation, Vol. 3, No. 1, pp. 43-55, February 1996. [12]. Johnson, Leonard G., The Median Ranks of Sample Values in their Population With an Application to Certain Fatigue Studies, Industrial Mathematics, Vol. 2, 1951. [13]. Johnson, Leonard G., The Statistical Treatment of Fatigue Experiment, Elsevier Publishing Company, New York, 144 pp., 1964. [14]. Kao, J.H.K., A New Life Quality Measure for Electron Tubes, IRE Transaction on Reliability and Quality Control, PGRQC 13, pp. 15-22, July 1958. Proyecto e-Math Financiado por la Secretaría de Estado de Educación y Universidades (MECD) 8 Identificación y descripción gráfica de los datos [15]. Kapur, K.C., and Lamberson, L.R., Reliability in Engineering Design, John Wiley & Sons, Inc., New York, 586 pp., 1977. [16]. Kececioglu, Dimitri, Reliability Engineering Handbook, Prentice Hall, Inc., New Jersey, Vol. 1, 1991. [17]. Kececioglu, Dimitri, Reliability & Life Testing Handbook, Prentice Hall, Inc., New Jersey, Vol. 1 and 2, 1993 and 1994. [18]. Leemis Lawrence M., Reliability - Probabilistic Models and Statistical Methods, Prentice Hall, Inc., Englewood Cliffs, New Jersey, 1995. [19]. Lieblein, J., and Zelen, M., Statistical Investigation of the Fatigue Life of Deep-Groove Ball Bearings, Journal of Research, National Bereau of Standards, Vol. 57, p. 273, 1956. [20]. Lloyd, David K., and Lipow Myron, Reliability: Management, Methods and Mathematics, 1962, Prentice Hall, Englewood Cliffs, New Jersey. [21]. Mann, Nancy R., Schafer, Ray. E., and Singpurwalla, Nozer D., Methods for Statistical Analysis of Reliability and Life Data, John Wiley & Sons, Inc., New York, 1974. [22]. Meeker, William Q., and Escobar, Luis A., Statistical Methods for Reliability Data, John Wiley & Sons, Inc., New York, 1998. [23]. Nelson, Wayne, Applied Life Data Analysis, John Wiley & Sons, Inc., New York, 1982. [24]. Nelson, Wayne, Accelerated Testing: Statistical Models, Test Plans and Data Analyses, John Wiley & Sons, Inc., New York, 1990. [25]. Perry, J. N., Semiconductor Burn-in and Weibull Statistics, Semiconductor Reliability, Vol. 2, Engineering Publishers, Elizabeth, N.J., pp. 8-90, 1962. [26]. Procassini, A. A., and Romano, A., Transistor Reliability Estimates Improve with Weibull Distribution Function, Motorola Military Products Division, Engineering Bulletin, Vol. 9, No. 2, pp. 16-18, 1961. [27]. ReliaSoft Corporation, Life Data Analysis Reference, ReliaSoft Publishing, Tucson, AZ, 1997. [28]. Weibull, Waloddi, A Statistical Representation of Fatigue Failure in Solids, Transactions on the Royal Institute of Technology, No. 27, Stockholm, 1949. [29]. Weibull, Wallodi, A Statistical Distribution Function of Wide Applicability, Journal of Applied Mechanics, Vol. 18, pp. 293-297, 1951. [30]. Wingo, Dallas R., Solution of the Three-Parameter Weibull Equations by Constrained Modified Quasilinearization (Progressively Censored Samples), IEEE Transactions on Reliability, Vol. R-22, No. 2, pp. 96-100, June 1973. ENLACES___________________________________________________________ [W1] La página de Relia Soft contiene multitud de enlaces documentación y software relacionados con la Fiabilidad de Sistemas. [W2] También de Relia Soft, la página Weibull.com es, sin duda, una de las principales fuentes de información sobre Fiabilidad. Proyecto e-Math Financiado por la Secretaría de Estado de Educación y Universidades (MECD) 9