Modelos Probabilisticos - tis-2010-g1

Anuncio
METODOS PROBABILÍSTICOS
Los métodos aplicados a continuación se aplicarán a la seguridad de sistemas,
midiendo probabilidades de fallas de software y de hardware en tiempos dados.
Procesos Estocásticos
En estadística, y en concreto teoría de la probabilidad, un proceso aleatorio o proceso
estocástico es un concepto matemático que sirve para caracterizar; es una sucesión
de variables aleatorias (estocásticas) que evolucionan en función de otra variable,
generalmente, el tiempo. Cada una de las variables aleatorias del proceso tiene su
propia función de distribución de probabilidad y, entre ellas, pueden
estar correlacionadas o no.
Cada variable o
conjunto
de
variables
sometidas
impactos aleatorios constituye un proceso estocástico
Distribución de Poisson
a
influencias
o
Definición:
Expresa la probabilidad de un número k de eventos ocurriendo en un tiempo fijo si
estos eventos ocurren con una frecuencia media conocida y son independientes del
tiempo discurrido desde el último evento.
Fórmula:
Donde λ es un parámetro positivo que representa la frecuencia esperada del fenómeno
modelado por la distribución.
Ejemplo:
Si 2% de los libros encuadernados en cierto taller tiene encuadernación defectuosa,
obtener la probabilidad de que 5 de 400 libros encuadernados en este taller tengan
encuadernaciones defectuosas
En este caso concreto, k es 5 y , λ, el valor esperado de libros defectuosos es el 2% de
400, es decir, 8. Por lo tanto, la probabilidad deseada es
Variables Aleatorias
Una variable aleatoria es un valor numérico que corresponde al resultado de un
experimento aleatorio, como la suma de los puntos obtenidos al lanzar dos dados, el
número de lanzamientos de un dado hasta que aparece el cuatro, el número de
personas que suben en un determinado ascensor al mes, el tiempo de espera en la sala
de un doctor.
Momentos de una Variable Aleatoria
Sea X es una variable aleatoria. El r-ésimo momento de X consiste en obtener los
valores esperados de X hasta de orden r:
En la teoría de probabilidad y estadística, una distribución de probabilidad identifica
bien la probabilidad de cada valor de una variable aleatoria no identificados (cuando
la variable es discreta), o la probabilidad de que el valor que corresponda a un
determinado intervalo (cuando la variable es continua). [1 ] La distribución de
probabilidad describe el rango de valores posibles que una variable aleatoria se puede
alcanzar, y la probabilidad de que el valor de la variable aleatoria dentro de un
(medibles) subconjunto de ese rango.
Cuando la variable aleatoria toma valores en el conjunto de los números reales, la
distribución de probabilidad es completamente descrito por la función de distribución
acumulada, cuyo valor en cada real x es la probabilidad de que la variable aleatoria es
menor o igual que x.
El concepto de la distribución de probabilidad y las variables aleatorias que describen
la base de la disciplina matemática de la teoría de la probabilidad, y la ciencia de la
estadística. Hay dispersión o variabilidad en el valor de casi todos los que se puede
medir en una población (por ejemplo, la altura de las personas, la durabilidad de un
metal, etc), casi todas las mediciones se hacen con algún error intrínseco, en muchos
procesos de la física se describen de forma probabilística, de de las propiedades
cinéticas de gases a la descripción de la mecánica cuántica de las partículas
fundamentales. Por estas y muchas otras razones, números simples son a menudo
inadecuados para describir una cantidad, mientras que las distribuciones de
probabilidad son a menudo más apropiados.
Hay varias distribuciones de probabilidad que aparecen en diversas aplicaciones. Uno
de los más importantes es la distribución normal, que es también conocida como la
distribución de Gauss o curva de campana y se aproxima a muchas distribuciones
diferentes de origen natural. El lanzamiento de una moneda de rendimiento justo de
distribución de otro familiar, donde los valores posibles son a cara o cruz, cada uno
con una probabilidad de 1 / 2.
Distribucion Exponencial
Distribución de la vida exponencial (o modelo HPP) las pruebas de
Pruebas exponencial son comunes en la industria para verificar que las herramientas,
sistemas o equipos cumplen con sus requisitos de fiabilidad a tiempo medio entre fallos
(MTBF). El supuesto es que el sistema tiene una falla constante (o reparación) tarifa,
que es el recíproco de la MTBF. El tiempo de espera entre las fallas sigue el modelo de
distribución exponencial.
Una situación típica prueba podría ser: una pieza compleja de equipo nuevo o
herramienta se instala en una fábrica y un estrecho seguimiento por un período de
varias semanas a varios meses. Si no tiene más que un pre-determinado número de
fallos durante ese período, el equipo "pasa" su prueba de aceptación de la fiabilidad.
Este tipo de prueba de fiabilidad a menudo se denomina prueba de aptitud o de un
producto de aceptación de prueba de confiabilidad (PRAT). Sanciones contractuales
puede ser invocada si el equipo no supera la prueba. Todo está vinculado a una
reunión de los clientes MTBF requisito en un nivel de confianza especificado.
¿Cuánto tiempo debe probar una pieza de equipo o un sistema para asegurar un MTBF
especificado a una confianza dado?
Se comienza con un objetivo determinado MTBF, m, y un nivel de confianza, por
ejemplo, 100 × (1-alfa). Usted necesita una pieza más de información para determinar
la longitud de la prueba: ¿cuántos no lo quiere permitir y aún "pasar" el equipo?
Cuanto más no autorizados, la más larga es la prueba requerida. Sin embargo, un
largo ensayo que permite más fallos tiene la característica deseable de lo que es menos
probable que una buena pieza de equipo será rechazado por suerte al azar "malo"
durante el período de prueba.
El procedimiento recomendado es para iterar sobre r = el número de no admisibles,
hasta un mayor r exigiría una longitud de prueba inaceptables. Para cualquier
elección de r, la longitud de la prueba correspondiente se calculará multiplicando
rápidamente M (el objetivo) por el factor en el siguiente cuadro correspondiente a la
fila r-o columna deseada y el nivel de confianza.
Por ejemplo, para confirmar un objetivo de 200 horas de MTBF de confianza del 90%,
lo que permite hasta 4 fallos en la prueba, la duración del ensayo debe ser de 200 ×
7,99 = 1598 horas. Si este es un tiempo excesivamente largo, trate de no permitir que
sólo el 3 por un período de ensayo de 200 × 6,68 = 1336 horas. El más corto de prueba
no permitiría ninguna falla y el último 200 × 2,3 = 460 horas. Todas estas pruebas de
garantía de 200 horas de MTBF de confianza de 90%, cuando el equipo pasa. Sin
embargo, la prueba más cortos son mucho menos "justo" para el proveedor en que
tienen una gran oportunidad de fallar un pedazo marginalmente aceptable de los
equipos.
Ejemplo 1:
Suponga que un sistema contiene cierto tipo de componente cuyos tiempo de falla en
años está dada por T. La variable aleatoria T se modela bien mediante la distribución
exponencial con tiempo medio para la falla ß=5. Si se instalan cinco de estos
componentes en diferentes sistemas. ¿Cuál es la probabilidad de que al menos dos aún
funcionen al final de ocho años?
Solución:
La probabilidad de que un componente dado aún funcione después de ocho años está
dada por:
Distribucion Gamma
En la teoría de probabilidad y estadística, la distribución gamma es una familia de dos
parámetros de las distribuciones de probabilidad continua. Tiene un θ parámetro de
escala y un parámetro de forma k. Si k es un entero entonces la distribución
representa la suma de k variables independientes de distribución exponencial al azar,
cada una de ellas tiene una media de θ (que es equivalente a un parámetro de tasa de θ
-1).
La distribución gamma es con frecuencia un modelo de probabilidad para los tiempos
de espera, por ejemplo, en las pruebas de la vida, el tiempo de espera hasta que la
muerte es una variable aleatoria que a menudo se modela con una distribución gamma
[1]. Distribuciones Gamma se ajustaban a las cantidades de lluvia de las tormentas
diferentes , y las diferencias en las cantidades de semillas y las tormentas de
preclasificación se reflejan en las diferencias de k y los parámetros estimados θ [2]
La fórmula general para la función de densidad de probabilidad de la distribución
gamma es de
Donde es la forma del parametro, es la ubicacion del parametro,
parametro, y es la función gamma que tiene la formula
es la escala del
El caso donde = 0 y = 1 se llama la distribución gamma estándar. La ecuación
para la distribución gamma estándar se reduce a la
La siguiente es la trama de la función gamma de densidad de probabilidad.
Distribución Beta
En la teoría de probabilidad y estadística, la distribución beta es una familia de
distribuciones de probabilidad continua definida en el intervalo (0, 1) con parámetros
de los dos parámetros forma positiva, por lo general denota por α y β. Es el caso
especial de la distribución de Dirichlet con sólo dos parámetros. Dado que la
distribución de Dirichlet es el conjugado antes de la distribución multinomial, la
distribución beta es el conjugado antes de la distribución binomial. En la estadística
bayesiana, puede ser visto como la distribución posterior del parámetro p de una
distribución binomial después de observar α - 1 eventos independientes con
probabilidad p y β - 1 con probabilidad 1 - p, si la distribución antes de p fue
uniforme.
La fórmula general para la función de densidad de probabilidad de la distribución beta
donde p y q son la forma de parámetros, A y B son los límites inferior y superior,
respectivamente, de la distribución, y B (p, q) es la función beta. La función beta tiene
la formula
El caso en que a = 0 y b = 1 se llama la distribución beta estándar. La ecuación para
la distribución beta estándar es
Generalmente se define la forma general de una distribución en términos de
ubicación y los parámetros de escala. La versión beta es diferente en que se
define la distribución general en términos de los límites inferior y superior. Sin
embargo, la ubicación y los parámetros de escala pueden ser definidas en
términos de los límites inferior y superior de la siguiente manera:
ubicación = a
escala = b – a
La siguiente es la trama de la beta de la función de densidad de probabilidad para los
cuatro valores diferentes de la forma de parámetros.
Métodos probabilísticas para la detección de defectos en software
a) Probabilidad Condicional
Las probabilidades están conformadas por 3 axiomas básicos
• p(A), la probabilidad de la ocurrencia de un evento. A, es un número entre 0 y 1;
• p(A)=0 significa que A no se dará nunca, p(A)=1 significa que A se dará
ciertamente;
• p(A or B) = p(A) + p(B) dado que A y B son distintos.
Sin embargo al referirnos a una probabilidad p(H) de un evento o hipótesis
estamos refiriéndonos a una probabilidad bastante simplificada, ya que por lo
general la probabilidad de un evento se da en un contexto sensitivo es decir que la
probabilidad de que se de un evento o hipótesis también depende de otro
evento(evidencia) que esta en el mismo contexto y es su condicional, por lo general
esta probabilidad se denota así p(H|E) y se lee “la probabilidad de H dada la
evidencia E”.
Un avance significativo en la teoría de probabilidades ha sido la demostración de
una equivalencia formal entre la estructura de un modelo gráfico y las
dependencias que son expresadas por una distribución de probabilidad numérica.
En términos numéricos podemos decir que el evento A es independiente del evento
B si observamos que B no influye en A lo cual hace que p(A|B) = p(A). En
términos de grafos podemos indicar que A es independiente de B si no hay una
conexión o arista entre los nodos A y B.
b) Teorema de Bayes y los modelos gráficos
El teorema de Bayes básicamente se enfoca de un universo U a un subconjunto B
restringido que se mantiene, es decir que se enfoca en una fracción de eventos B
para los que A es también verdad.
Este teorema es importante ya que muestra que podemos razonar en ambos
sentidos para obtener una probabilidad, es decir podemos obtener probabilidades
de las causas a efectos y de los efectos a las causas
En términos probabilísticos , dos variables X e Y son independientes si p(X,Y) =
p(X)p(Y) – la distribución de probabilidad sobre 2 variables factorizadas en 2
distribuciones independientes. Esto se expresa en un gráfico mediante la ausencia
de una arista expresando la influencia entre las 2 variables. También se puede
agregar una tercera variable con lo cual se le da la siguiente expresión de
probabilidad p(X,Y | Z) = p(X | Z)p(Y | Z).
De modo similar, se puede descomponer la distribución de probabilidad asociadas
con los nodos DD, TE y SQ tal que la probabilidad p(DD, TE, SQ) = p(DD |
TE,SQ)p(TE)p(SQ).
Esto nos da una serie de casos de ejemplos donde un grafo puede admitir una
simple factorización correspondiente a distribución de probabilidad. Si el grafo es
dirigido y no hay ciclos en el grafo, entonces esta propiedad es general.
c) Modelo Probabilístico para la predicción de defectos
Los modelos probabilísticos son buenos candidatos para un modelo efectivo de
predicción de defectos de software por las siguientes razones:
–
–
Pueden modelar fácilmente la influencia entre las variables de un dominio
específico.
El enfoque bayesiano permite la inferencia estadística para ser ampliado
por expertos en aquellas áreas de un dominio del problema en que los
datos empíricos son escasos
–
–
Como resultado de lo anterior, es posible incluir las variables en un
modelo de fiabilidad del software que corresponden a proceso, así como
los atributos del producto
La asignación de probabilidades a las predicciones de fiabilidad significa
que la toma de decisiones correcta utilizando la teoría de los enfoques
clásicos puede ser apoyada.
d) Estructura de una red probabilística
Los modelos probabilísticos son ejecutados usando la maquina de inferencia
probabilística de Hugin, sin embargo el tamaño y la complejidad de la red no hizo
posible la construcción de la red usando directamente herramientas Hugin, sin
embargo se pudo usar Agena Ltd la cual consta de 2 metodos y herramientas que
son construidos en maquina de propagación de Hugin.
–
La SERENE, que es un método y herramienta la cual permite que grandes
redes sean construidas desde las mas pequenas en un punto de vista modular,y
las grandes tablas de probabilidad sean construidas usando funciones
matematicas predefinidas y distribución de probabilidad.
–
El IMPRESS, que es un método y herramienta la cual extiende a SERENE
para permitir a los usuarios generar simplemente distribuciones e probabilidad
complejos.
e) Las Tablas de probabilidad
El trabajo en la construcción de modelos gráficos de probabilidad se factoriza en
dos escenarios.
–
–
Escenarios Cualitativos: Consideran la relación general entre las variables de
interés en términos de relevancia de una variable a otra en circunstancias
específicas.
Escenarios Cuantitativos: Es la especificación numérica de parámetros de los
modelos.
f) Conclusiones
Un modelo de probabilidad para de predicción de defectos en software puede no
ser solamente usado para evaluar proyectos en ejecución, sino también puede ser
usado para explorar posibles efectos de un rango de actividades de mejora en los
procesos de software. Si los costos pueden ser asociados con mejora de procesos, y
beneficios evaluados para las mejoras previstas en la calidad de software, entonces
el modelo puede ser usado para soportar la toma de decisiones para SPI(Software
Process Improvement).
Una desventaja de un modelo de confiabilidad de esta complejidad es la cantidad
de data que es necesario para soportar estadísticamente estudios de validación
significativos.
Descargar