FIABILIDAD (II): IDENTIFICACIÓN Y DESCRIPCIÓN GRÁFICA DE

Anuncio
Identificación y descripción gráfica de los datos
FIABILIDAD (II): IDENTIFICACIÓN Y
DESCRIPCIÓN GRÁFICA DE LOS DATOS
Autores: Ángel A. Juan Pérez (ajuanp@uoc.edu), Rafael García Martín (rgarciamart@uoc.edu).
RELACIÓN CON OTROS MATH-BLOCS__________________________________
Este math-block forma parte de una serie de 8 documentos relacionados todos ellos con la Fiabilidad
de componentes desde un punto de vista estadístico:
•
•
•
•
•
•
•
•
Conceptos Básicos (I).
Identificación y descripción gráfica de los datos (II).
Análisis paramétrico de los tiempos de fallo (III).
Análisis no paramétrico de los tiempos de fallo (IV).
Comparación no paramétrica de muestras (V).
Tests de vida acelerada (VI).
Modelos de regresión para observaciones censuradas (VII).
Análisis Probit (Éxito / fracaso) (VIII).
MAPA CONCEPTUAL_________________________________________________
Gráficos de
probabilidad
Identificación gráfica
de la distribución de
ajuste (Minitab)
Fiabilidad (II): Identif. y
descripción gráfica
Estadístico
Anderson-Darling
Paramétrica
Descripción gráfica
de la distribución de
ajuste (Minitab)
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
No paramétrica
1
Identificación y descripción gráfica de los datos
INTRODUCCIÓN_____________________________________________________
Supongamos que se dispone de una relación de tiempos de fallo asociados a un determinado
dispositivo, i.e., se tienen n observaciones de la v.a. T = “tiempo transcurrido hasta que se produce el
fallo”. Lo primero que convendría hacer es tratar de identificar alguna distribución conocida a la cual
se ajustasen bien las observaciones, pues ello nos simplificaría el análisis descriptivo de los datos,
así como la realización de inferencias sobre la población.
En muchas ocasiones será posible identificar la distribución que mejor se aproxima a las
observaciones mediante el uso de gráficos de probabilidad. Este tipo de gráficos muestran la f.d.
linealizada de una distribución teórica junto con una nube de puntos que representan estimaciones
(no paramétricas) puntuales de la f.d. de T. Evidentemente, cuanto más se aproxime la nube de
puntos a la recta que aparece en el gráfico, tanto mejor será el ajuste.
Si se lograse aproximar la distribución de T mediante alguna distribución teórica conocida, sería
posible usar esta última para representar gráficamente estimaciones de la función de supervivencia,
de la f.d.p., y de la tasa de fallos (descripción paramétrica) de las observaciones. En caso contrario,
será necesario recurrir a la estimación puntual de la f.d. asociada a T para representar gráficamente
estimaciones de las funciones anteriores (descripción no paramétrica).
En este math-block se hará uso del programa estadístico MINITAB para identificar y describir
gráficamente la distribución que mejor se ajuste a un conjunto de observaciones que usaremos como
ejemplo.
Las posibles distribuciones de ajuste son: la normal, la lognormal (base e), la Weibull, y la
exponencial.
GRÁFICOS DE PROBABILIDAD_________________________________________
Al representar gráficamente las funciones de distribución (f.d.) de las diferentes distribuciones
teóricas, se obtienen curvas muy similares, muchas de ellas difíciles de ser identificadas a simple
vista. Es por ello que se utilizan los gráficos de probabilidad, los cuales hacen uso de escalas
especiales en los ejes, de manera que al representar la f.d. ésta tenga forma lineal.
El primer paso será pues encontrar la transformación adecuada para t y F(t) de modo que al
representar t vs. F(t) se obtenga una función lineal.
Ejemplo (linealización de una Weibull): La f.d. asociada a una distribución Weibull de dos
parámetros (α, β) viene dada por la expresión:
F(t) = 1 – exp{-(t/α)β}
con
α, β > 0
Esta función puede ser linealizada (i.e., puesta de la forma: y = a + bx) como sigue:
F(t) = 1 – exp{-(t/α)β} ⇒ ln(1-F(t)) = ln(exp{-(t/α)β}) ⇒ ln(1-F(t)) = -(t/α)β ⇒
⇒ ln(-ln(1-F(t))) = β⋅ln(t/α) ⇒ ln(ln(1-F(t))-1) = β⋅ln(t) - β⋅ln(α)
Tomando ahora y = ln(ln(1-F(t))-1) , y x = ln(t) la f.d. puede rescribirse en forma lineal como:
y = β⋅x - β⋅ln(α).
A continuación se representa gráficamente la f.d. de una Weibull (con escala α = 10 y forma β = 4) y
su versión linealizada:
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
2
Identificación y descripción gráfica de los datos
Escala (alpha) =
Forma (beta) =
10
4
f.d. Weibull, escala = 10 forma = 4
WEIBULL
1,00
F(t)
x = ln(t)
y = ln(ln(1-F(t))-1)
0,80
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0,00
0,00
0,01
0,03
0,06
0,12
0,21
0,34
0,48
0,63
0,77
0,87
0,94
0,98
0,99
1,00
0,00
0,69
1,10
1,39
1,61
1,79
1,95
2,08
2,20
2,30
2,40
2,48
2,56
2,64
2,71
2,77
-9,2
-6,4
-4,8
-3,7
-2,8
-2,0
-1,4
-0,9
-0,4
0,0
0,4
0,7
1,0
1,3
1,6
1,9
0,60
F(t)
t
0,40
0,20
0,00
0
5
10
15
t
f.d. Weibull linealizada, escala = 10 forma = 4
3,0
1,0
y
-1,0
-3,0
-5,0
-7,0
-9,0
0,00
0,50
1,00
x
1,50
2,00
2,50
Una vez conocidas las transformaciones que permiten linealizar la f.d. asociada a una distribución, es
posible construir una plantilla especial (con los ejes graduados de forma adecuada) sobre la cual
representar una nube de puntos que contenga cada uno de los tiempos de fallo observados (eje x)
junto con el valor (estimado) de la f.d. asociado a dicha observación (eje y).
Para cada punto (xj,yj), el valor xj vendrá dado por la j-ésima observación tj (instante en que se ha
producido el fallo j-ésimo). Más complicado será hallar el valor de la coordenada yj, la cual
representará el valor estimado de F(tj). Es usual estimar el dicho valor mediante los llamados rangos
medianos, los cuales se pueden calcular, en el caso de la distribución Weibull con observaciones
completas (sin censura), mediante la ecuación que se muestra a continuación. Para profundizar más
sobre este método, se recomiendan las referencias bibliográficas Hald (1952a) [9] y Hald (1952b)
[10]:
F(tj) ≈ rango mediano j-ésimo = ( 1 + F(0,5; m,n) ⋅(n – j + 1) / j )-1
donde: F(0,5; m,n) es la mediana de una F-Snedecor con m = 2(n – j + 1) y n = 2j grados de
libertad, j es el orden del fallo, y n es el tamaño muestral.
Como se verá en el apartado siguiente, los programas estadísticos actuales (como MINITAB) son
capaces de realizar los cálculos anteriores, automatizando así el proceso de construcción de estos
gráficos de probabilidad.
Cuando se tengan ya representados todos los puntos (x,y) asociados a las observaciones, se deberá
hallar la recta de regresión asociada, la cual corresponderá a la f.d. de la distribución elegida cuyos
parámetros mejor se ajusten a las observaciones. Para ver si las observaciones pueden aproximarse
bien por dicha distribución, habrá que analizar (gráficamente o mediante el estadístico AndersonDarling) si los puntos representados se encuentran suficientemente próximos a la recta, prestando
especial atención a los valores de los extremos.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
3
3,00
Identificación y descripción gráfica de los datos
IDENTIFICACIÓN GRÁFICA DE LA DISTRIB. DE AJUSTE____________________
Ejemplo (identificación gráfica): se considerará aquí el caso de una compañía que fabrica cubiertas
para motores, cubiertas que pueden estropearse rápidamente si se ven sometidas a temperaturas
elevadas. El archivo Motores.mtw contiene los tiempos de fallo (en meses) de las cubiertas a dos
temperaturas distintas.
La primera muestra (Tiemp80) consta de 50 cubiertas sometidas a 80º C; la segunda muestra
(Tiemp100) abarca 40 cubiertas a 100º C. Algunas de las cubiertas que se empezaron a estudiar, o
bien fallaron debido a causas distintas a la temperatura, o bien no continuaron en el estudio por
motivos diversos y, por tanto, se desconoce el instante en que fallaron (observaciones censuradas a
derecha).
En las columnas Comp80 y Comp100 se especifica si los tiempos obtenidos pertenecen a
observaciones completas (1) o a observaciones censuradas (0).
Una vez introducidos los datos, seleccionamos Stat > Reliability/Survival > Distribution ID Plot-Right
Cens... :
Se eligen las variables que contienen los tiempos de fallo, así como las columnas en las que se indica
si ha habido o no censura (cada una de éstas se asociará a una variable según el orden de entrada):
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
4
Identificación y descripción gráfica de los datos
Observar que una alternativa al uso de columnas indicadoras de censura sería fijar el tiempo que ha
de transcurrir (o el número de observaciones que han de fallar) como indicador de censura (censura
por tiempo o por fallos).
El programa ofrece una serie de opciones, como la de escoger entre los siguientes métodos no
paramétricos para la obtención de los gráficos: Herd-Jonhson, Kaplan-Meier, y Kaplan-Meier
modificado (ver el math-block Fiabilidad IV). Por defecto, en el caso de observaciones censuradas,
MINITAB utiliza el método Kaplan-Meier modificado:
Si los puntos representados en el gráfico están suficientemente próximos a la recta, podremos dar por
bueno el ajuste de las observaciones mediante la distribución teórica elegida (resulta conveniente
prestar atención especial a los valores de los extremos). Como se observa en los gráficos siguientes,
la distribución que mejor se ajusta a los datos es la lognormal (base e).
Por su parte, el estadístico Anderson-Darling nos da una medida de lo alejadas que se encuentran
las observaciones de las recta que representa las función de distribución. Cuanto mejor sea el ajuste,
tanto menor será dicho estadístico. En este caso vemos que el menor valor que toma el estadístico
AD corresponde a la distribución lognormal (67,22 para la muestra a 80º C y 16,50 para la muestra a
100º C), lo que confirma que es esta distribución la que mejor se ajusta a las observaciones:
DNI distribución tiempos de fallo de cubiertas
ML E stim ates - Cens oring Colum n in Com p80...Com p100
Lognormal base e
Tiemp80
99
99
95
90
80
70
60
50
40
30
Tiemp100
95
Anderson-D arling (adj)
Percent
Percent
Weibull
20
10
5
80
70
60
50
40
30
20
Weibull
67,64; 16,60
Lognormal bas e e
67,22; 16,50
10
3
2
Ex ponential
5
1
70,33; 18,19
1
Normal
10
100
10
Exponential
100
Normal
99
99
98
95
67,73; 17,03
97
Percent
Percent
95
90
80
80
70
60
50
40
30
20
70
60
50
10
5
30
10
1
0
100
200
300
400
0
50
100
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
5
Identificación y descripción gráfica de los datos
DESCRIPCIÓN GRÁFICA DE LOS DATOS________________________________
Una vez se haya tratado de ajustar los tiempos de fallo mediante alguna distribución conocida, será
conveniente realizar una descripción gráfica de las observaciones. Si se ha logrado identificar la
distribución de los tiempos de fallo, se optará por un enfoque paramétrico. Si, por el contrario, las
observaciones no se ajustan a ninguna de las cuatro distribuciones propuestas (exponencial, Weibull,
normal y lognormal), se optará por usar métodos no paramétricos.
El enfoque paramétrico incluye los siguientes gráficos: f.d.p., función de supervivencia, f.d.
(linealizada), y tasa de fallo. La opción no paramétrica incluye un gráfico de la función de
supervivencia (basado en Kaplan-Meier) y otro de la función tasa de fallo.
Ejemplo (descripción paramétrica): Siguiendo con el ejemplo anterior de las cubiertas, se utilizará la
distribución lognormal (base e) para hacer una descripción completa de las variables que interesan:
Gráficas distribución de datos
ML Estimates - Censoring Column in Comp80...Comp100
Probability Density Function
Lognormal base e Probability
0,02
Tiemp80
Tiemp100
99
95
Percent
90
0,01
80
70
60
50
40
30
20
Location Scale
A D*
F/C
4,0927
0,4862
67,22
37/13
3,6287
0,7309
16,50
34/ 6
10
5
1
0,00
0
100
10
200
Survival Function
100
Hazard Function
Tiemp80
Tiemp100
1,0
0,03
0,9
0,8
0,02
0,6
0,5
Rate
Probability
0,7
0,4
0,3
0,01
0,2
0,1
0,0
0,00
0
100
200
0
100
200
Las cuatro gráficas anteriores describen la distribución de los tiempos de fallo de las cubiertas para
dos niveles diferentes de temperatura. A partir de las mismas, es posible determinar, p.e., cuánto más
probable resulta el que las cubiertas fallen si se encuentran sometidas a una temperatura de 100º C
que si lo están a una de 80º C.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
6
Identificación y descripción gráfica de los datos
Así, p.e., se observa (a partir del gráfico de supervivencia) que, tras 50 meses, sólo sobrevivirán
(aproximadamente) un 30% de las cubiertas sometidas a 100º C, mientras que el porcentaje de
supervivientes a los 50 meses sube hasta (aproximadamente) un 65% para las cubiertas sometidas a
80º C.
Ejemplo (descripción no paramétrica): Si se hubiese optado por un método no paramétrico (sin
suponer que los datos pueden ajustarse por una determinada distribución teórica), los resultados
hubiesen sido los siguientes:
Gráficas distribución de datos
Kaplan-Meier Method - Censoring Column in Comp80...Comp100
Kaplan-Meier Survival Function
1,0
Tiemp80
Tiemp100
Probability
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
10
20
30
40
50
60
70
80
60
70
80
Nonparametric Hazard Function
Rate
0,2
0,1
0,0
0
10
20
30
40
50
A partir de las funciones de supervivencia se aprecia que hay una sustancial diferencia entre los
tiempos de fallo de las cubiertas a 80º C y los de las cubiertas a 100º C: claramente, a una
temperatura de 80º C la mayor parte de las cubiertas perdura durante más tiempo que a 100º C.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
7
Identificación y descripción gráfica de los datos
Por su parte, la gráfica de las tasas de riesgo muestra dos funciones crecientes, siendo la de mayor
pendiente la asociada a las cubiertas que soportan más temperatura.
Nuevamente, se aprecia cómo transcurridos 50 meses, solo sobrevivirán aprox. un 30% de las
cubiertas sometidas a 100º C, mientras que este porcentaje llega al 65-70% para cubiertas a 80º C.
Notar, además, que aproximadamente un 50% de las cubiertas a 100º C habrán fallado entre los 35 y
40 meses. Por otro lado, en el caso de las cubiertas a 80º C, un 50% de las mismas sobrevivirá hasta
los 55-60 meses.
BIBLIOGRAFÍA______________________________________________________
[1].
Cramer, H., Mathematical Methods of Statistics, Princeton University Press, Princeton, NJ,
1946.
[2].
Davis, D.J., An Analysis of Some Failure Data, J. Am. Stat. Assoc., Vol. 47, p. 113, 1952.
[3].
Dietrich, D., SIE 530 Engineering Statistics Lecture Notes, The University of Arizona, Tucson,
Arizona.
[4].
Dudewicz, E.J., An Analysis of Some Failure Data, J. Am. Stat. Assoc., Vol. 47, p. 113, 1952.
[5].
Dudewicz, E.J., and Mishra, Satya N., Modern Mathematical Statistics, John Wiley & Sons,
Inc., New York, 1988.
[6].
Evans, Ralph A., The Lognormal Distribution is Not a Wearout Distribution, Reliability
Group Newsletter, IEEE, Inc., 345 East 47th St., New York, N.Y. 10017, p. 9, Vol. XV, Issue 1,
January 1970.
[7].
Glasstone, S., Laidler, K. J., and Eyring, H. E., The Theory of Rate Processes, McGraw Hill,
NY, 1941.
[8].
Hahn, Gerald J., and Shapiro, Samuel S., Statistical Models in Engineering, John Wiley &
Sons, Inc., New York, 355 pp., 1967.
[9].
Hald, A., Statistical Theory with Engineering Applications, John Wiley & Sons, Inc., New
York, 783 pp., 1952.
[10]. Hald, A., Statistical Tables and Formulas, John Wiley & Sons, Inc., New York, 97 pp., 1952.
[11]. Hirose, Hideo, Maximum Likelihood Estimation in the 3-parameter Weibull Distribution - A
Look through the Generalized Extreme-value Distribution, IEEE Transactions on
Dielectrics and Electrical Insulation, Vol. 3, No. 1, pp. 43-55, February 1996.
[12]. Johnson, Leonard G., The Median Ranks of Sample Values in their Population With an
Application to Certain Fatigue Studies, Industrial Mathematics, Vol. 2, 1951.
[13]. Johnson, Leonard G., The Statistical Treatment of Fatigue Experiment, Elsevier Publishing
Company, New York, 144 pp., 1964.
[14]. Kao, J.H.K., A New Life Quality Measure for Electron Tubes, IRE Transaction on Reliability and
Quality Control, PGRQC 13, pp. 15-22, July 1958.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
8
Identificación y descripción gráfica de los datos
[15]. Kapur, K.C., and Lamberson, L.R., Reliability in Engineering Design, John Wiley & Sons,
Inc., New York, 586 pp., 1977.
[16]. Kececioglu, Dimitri, Reliability Engineering Handbook, Prentice Hall, Inc., New Jersey, Vol. 1,
1991.
[17]. Kececioglu, Dimitri, Reliability & Life Testing Handbook, Prentice Hall, Inc., New Jersey, Vol.
1 and 2, 1993 and 1994.
[18]. Leemis Lawrence M., Reliability - Probabilistic Models and Statistical Methods, Prentice
Hall, Inc., Englewood Cliffs, New Jersey, 1995.
[19]. Lieblein, J., and Zelen, M., Statistical Investigation of the Fatigue Life of Deep-Groove Ball
Bearings, Journal of Research, National Bereau of Standards, Vol. 57, p. 273, 1956.
[20]. Lloyd, David K., and Lipow Myron, Reliability: Management, Methods and Mathematics,
1962, Prentice Hall, Englewood Cliffs, New Jersey.
[21]. Mann, Nancy R., Schafer, Ray. E., and Singpurwalla, Nozer D., Methods for Statistical
Analysis of Reliability and Life Data, John Wiley & Sons, Inc., New York, 1974.
[22]. Meeker, William Q., and Escobar, Luis A., Statistical Methods for Reliability Data, John
Wiley & Sons, Inc., New York, 1998.
[23]. Nelson, Wayne, Applied Life Data Analysis, John Wiley & Sons, Inc., New York, 1982.
[24]. Nelson, Wayne, Accelerated Testing: Statistical Models, Test Plans and Data Analyses, John
Wiley & Sons, Inc., New York, 1990.
[25]. Perry, J. N., Semiconductor Burn-in and Weibull Statistics, Semiconductor Reliability, Vol.
2, Engineering Publishers, Elizabeth, N.J., pp. 8-90, 1962.
[26]. Procassini, A. A., and Romano, A., Transistor Reliability Estimates Improve with Weibull
Distribution Function, Motorola Military Products Division, Engineering Bulletin, Vol. 9, No.
2, pp. 16-18, 1961.
[27]. ReliaSoft Corporation, Life Data Analysis Reference, ReliaSoft Publishing, Tucson, AZ, 1997.
[28]. Weibull, Waloddi, A Statistical Representation of Fatigue Failure in Solids, Transactions on
the Royal Institute of Technology, No. 27, Stockholm, 1949.
[29]. Weibull, Wallodi, A Statistical Distribution Function of Wide Applicability, Journal of
Applied Mechanics, Vol. 18, pp. 293-297, 1951.
[30]. Wingo, Dallas R., Solution of the Three-Parameter Weibull Equations by Constrained
Modified Quasilinearization (Progressively Censored Samples), IEEE Transactions on
Reliability, Vol. R-22, No. 2, pp. 96-100, June 1973.
ENLACES___________________________________________________________
[W1]
La página de Relia Soft contiene multitud de enlaces documentación y software
relacionados con la Fiabilidad de Sistemas.
[W2]
También de Relia Soft, la página Weibull.com es, sin duda, una de las principales fuentes de
información sobre Fiabilidad.
Proyecto e-Math
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
9
Descargar