METODOS PROBABILÍSTICOS Los métodos aplicados a continuación se aplicarán a la seguridad de sistemas, midiendo probabilidades de fallas de software y de hardware en tiempos dados. Procesos Estocásticos En estadística, y en concreto teoría de la probabilidad, un proceso aleatorio o proceso estocástico es un concepto matemático que sirve para caracterizar; es una sucesión de variables aleatorias (estocásticas) que evolucionan en función de otra variable, generalmente, el tiempo. Cada una de las variables aleatorias del proceso tiene su propia función de distribución de probabilidad y, entre ellas, pueden estar correlacionadas o no. Cada variable o conjunto de variables sometidas impactos aleatorios constituye un proceso estocástico Distribución de Poisson a influencias o Definición: Expresa la probabilidad de un número k de eventos ocurriendo en un tiempo fijo si estos eventos ocurren con una frecuencia media conocida y son independientes del tiempo discurrido desde el último evento. Fórmula: Donde λ es un parámetro positivo que representa la frecuencia esperada del fenómeno modelado por la distribución. Ejemplo: Si 2% de los libros encuadernados en cierto taller tiene encuadernación defectuosa, obtener la probabilidad de que 5 de 400 libros encuadernados en este taller tengan encuadernaciones defectuosas En este caso concreto, k es 5 y , λ, el valor esperado de libros defectuosos es el 2% de 400, es decir, 8. Por lo tanto, la probabilidad deseada es Variables Aleatorias Una variable aleatoria es un valor numérico que corresponde al resultado de un experimento aleatorio, como la suma de los puntos obtenidos al lanzar dos dados, el número de lanzamientos de un dado hasta que aparece el cuatro, el número de personas que suben en un determinado ascensor al mes, el tiempo de espera en la sala de un doctor. Momentos de una Variable Aleatoria Sea X es una variable aleatoria. El r-ésimo momento de X consiste en obtener los valores esperados de X hasta de orden r: En la teoría de probabilidad y estadística, una distribución de probabilidad identifica bien la probabilidad de cada valor de una variable aleatoria no identificados (cuando la variable es discreta), o la probabilidad de que el valor que corresponda a un determinado intervalo (cuando la variable es continua). [1 ] La distribución de probabilidad describe el rango de valores posibles que una variable aleatoria se puede alcanzar, y la probabilidad de que el valor de la variable aleatoria dentro de un (medibles) subconjunto de ese rango. Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad es completamente descrito por la función de distribución acumulada, cuyo valor en cada real x es la probabilidad de que la variable aleatoria es menor o igual que x. El concepto de la distribución de probabilidad y las variables aleatorias que describen la base de la disciplina matemática de la teoría de la probabilidad, y la ciencia de la estadística. Hay dispersión o variabilidad en el valor de casi todos los que se puede medir en una población (por ejemplo, la altura de las personas, la durabilidad de un metal, etc), casi todas las mediciones se hacen con algún error intrínseco, en muchos procesos de la física se describen de forma probabilística, de de las propiedades cinéticas de gases a la descripción de la mecánica cuántica de las partículas fundamentales. Por estas y muchas otras razones, números simples son a menudo inadecuados para describir una cantidad, mientras que las distribuciones de probabilidad son a menudo más apropiados. Hay varias distribuciones de probabilidad que aparecen en diversas aplicaciones. Uno de los más importantes es la distribución normal, que es también conocida como la distribución de Gauss o curva de campana y se aproxima a muchas distribuciones diferentes de origen natural. El lanzamiento de una moneda de rendimiento justo de distribución de otro familiar, donde los valores posibles son a cara o cruz, cada uno con una probabilidad de 1 / 2. Distribucion Exponencial Distribución de la vida exponencial (o modelo HPP) las pruebas de Pruebas exponencial son comunes en la industria para verificar que las herramientas, sistemas o equipos cumplen con sus requisitos de fiabilidad a tiempo medio entre fallos (MTBF). El supuesto es que el sistema tiene una falla constante (o reparación) tarifa, que es el recíproco de la MTBF. El tiempo de espera entre las fallas sigue el modelo de distribución exponencial. Una situación típica prueba podría ser: una pieza compleja de equipo nuevo o herramienta se instala en una fábrica y un estrecho seguimiento por un período de varias semanas a varios meses. Si no tiene más que un pre-determinado número de fallos durante ese período, el equipo "pasa" su prueba de aceptación de la fiabilidad. Este tipo de prueba de fiabilidad a menudo se denomina prueba de aptitud o de un producto de aceptación de prueba de confiabilidad (PRAT). Sanciones contractuales puede ser invocada si el equipo no supera la prueba. Todo está vinculado a una reunión de los clientes MTBF requisito en un nivel de confianza especificado. ¿Cuánto tiempo debe probar una pieza de equipo o un sistema para asegurar un MTBF especificado a una confianza dado? Se comienza con un objetivo determinado MTBF, m, y un nivel de confianza, por ejemplo, 100 × (1-alfa). Usted necesita una pieza más de información para determinar la longitud de la prueba: ¿cuántos no lo quiere permitir y aún "pasar" el equipo? Cuanto más no autorizados, la más larga es la prueba requerida. Sin embargo, un largo ensayo que permite más fallos tiene la característica deseable de lo que es menos probable que una buena pieza de equipo será rechazado por suerte al azar "malo" durante el período de prueba. El procedimiento recomendado es para iterar sobre r = el número de no admisibles, hasta un mayor r exigiría una longitud de prueba inaceptables. Para cualquier elección de r, la longitud de la prueba correspondiente se calculará multiplicando rápidamente M (el objetivo) por el factor en el siguiente cuadro correspondiente a la fila r-o columna deseada y el nivel de confianza. Por ejemplo, para confirmar un objetivo de 200 horas de MTBF de confianza del 90%, lo que permite hasta 4 fallos en la prueba, la duración del ensayo debe ser de 200 × 7,99 = 1598 horas. Si este es un tiempo excesivamente largo, trate de no permitir que sólo el 3 por un período de ensayo de 200 × 6,68 = 1336 horas. El más corto de prueba no permitiría ninguna falla y el último 200 × 2,3 = 460 horas. Todas estas pruebas de garantía de 200 horas de MTBF de confianza de 90%, cuando el equipo pasa. Sin embargo, la prueba más cortos son mucho menos "justo" para el proveedor en que tienen una gran oportunidad de fallar un pedazo marginalmente aceptable de los equipos. Ejemplo 1: Suponga que un sistema contiene cierto tipo de componente cuyos tiempo de falla en años está dada por T. La variable aleatoria T se modela bien mediante la distribución exponencial con tiempo medio para la falla ß=5. Si se instalan cinco de estos componentes en diferentes sistemas. ¿Cuál es la probabilidad de que al menos dos aún funcionen al final de ocho años? Solución: La probabilidad de que un componente dado aún funcione después de ocho años está dada por: Distribucion Gamma En la teoría de probabilidad y estadística, la distribución gamma es una familia de dos parámetros de las distribuciones de probabilidad continua. Tiene un θ parámetro de escala y un parámetro de forma k. Si k es un entero entonces la distribución representa la suma de k variables independientes de distribución exponencial al azar, cada una de ellas tiene una media de θ (que es equivalente a un parámetro de tasa de θ -1). La distribución gamma es con frecuencia un modelo de probabilidad para los tiempos de espera, por ejemplo, en las pruebas de la vida, el tiempo de espera hasta que la muerte es una variable aleatoria que a menudo se modela con una distribución gamma [1]. Distribuciones Gamma se ajustaban a las cantidades de lluvia de las tormentas diferentes , y las diferencias en las cantidades de semillas y las tormentas de preclasificación se reflejan en las diferencias de k y los parámetros estimados θ [2] La fórmula general para la función de densidad de probabilidad de la distribución gamma es de Donde es la forma del parametro, es la ubicacion del parametro, parametro, y es la función gamma que tiene la formula es la escala del El caso donde = 0 y = 1 se llama la distribución gamma estándar. La ecuación para la distribución gamma estándar se reduce a la La siguiente es la trama de la función gamma de densidad de probabilidad. Distribución Beta En la teoría de probabilidad y estadística, la distribución beta es una familia de distribuciones de probabilidad continua definida en el intervalo (0, 1) con parámetros de los dos parámetros forma positiva, por lo general denota por α y β. Es el caso especial de la distribución de Dirichlet con sólo dos parámetros. Dado que la distribución de Dirichlet es el conjugado antes de la distribución multinomial, la distribución beta es el conjugado antes de la distribución binomial. En la estadística bayesiana, puede ser visto como la distribución posterior del parámetro p de una distribución binomial después de observar α - 1 eventos independientes con probabilidad p y β - 1 con probabilidad 1 - p, si la distribución antes de p fue uniforme. La fórmula general para la función de densidad de probabilidad de la distribución beta donde p y q son la forma de parámetros, A y B son los límites inferior y superior, respectivamente, de la distribución, y B (p, q) es la función beta. La función beta tiene la formula El caso en que a = 0 y b = 1 se llama la distribución beta estándar. La ecuación para la distribución beta estándar es Generalmente se define la forma general de una distribución en términos de ubicación y los parámetros de escala. La versión beta es diferente en que se define la distribución general en términos de los límites inferior y superior. Sin embargo, la ubicación y los parámetros de escala pueden ser definidas en términos de los límites inferior y superior de la siguiente manera: ubicación = a escala = b – a La siguiente es la trama de la beta de la función de densidad de probabilidad para los cuatro valores diferentes de la forma de parámetros. Métodos probabilísticas para la detección de defectos en software a) Probabilidad Condicional Las probabilidades están conformadas por 3 axiomas básicos • p(A), la probabilidad de la ocurrencia de un evento. A, es un número entre 0 y 1; • p(A)=0 significa que A no se dará nunca, p(A)=1 significa que A se dará ciertamente; • p(A or B) = p(A) + p(B) dado que A y B son distintos. Sin embargo al referirnos a una probabilidad p(H) de un evento o hipótesis estamos refiriéndonos a una probabilidad bastante simplificada, ya que por lo general la probabilidad de un evento se da en un contexto sensitivo es decir que la probabilidad de que se de un evento o hipótesis también depende de otro evento(evidencia) que esta en el mismo contexto y es su condicional, por lo general esta probabilidad se denota así p(H|E) y se lee “la probabilidad de H dada la evidencia E”. Un avance significativo en la teoría de probabilidades ha sido la demostración de una equivalencia formal entre la estructura de un modelo gráfico y las dependencias que son expresadas por una distribución de probabilidad numérica. En términos numéricos podemos decir que el evento A es independiente del evento B si observamos que B no influye en A lo cual hace que p(A|B) = p(A). En términos de grafos podemos indicar que A es independiente de B si no hay una conexión o arista entre los nodos A y B. b) Teorema de Bayes y los modelos gráficos El teorema de Bayes básicamente se enfoca de un universo U a un subconjunto B restringido que se mantiene, es decir que se enfoca en una fracción de eventos B para los que A es también verdad. Este teorema es importante ya que muestra que podemos razonar en ambos sentidos para obtener una probabilidad, es decir podemos obtener probabilidades de las causas a efectos y de los efectos a las causas En términos probabilísticos , dos variables X e Y son independientes si p(X,Y) = p(X)p(Y) – la distribución de probabilidad sobre 2 variables factorizadas en 2 distribuciones independientes. Esto se expresa en un gráfico mediante la ausencia de una arista expresando la influencia entre las 2 variables. También se puede agregar una tercera variable con lo cual se le da la siguiente expresión de probabilidad p(X,Y | Z) = p(X | Z)p(Y | Z). De modo similar, se puede descomponer la distribución de probabilidad asociadas con los nodos DD, TE y SQ tal que la probabilidad p(DD, TE, SQ) = p(DD | TE,SQ)p(TE)p(SQ). Esto nos da una serie de casos de ejemplos donde un grafo puede admitir una simple factorización correspondiente a distribución de probabilidad. Si el grafo es dirigido y no hay ciclos en el grafo, entonces esta propiedad es general. c) Modelo Probabilístico para la predicción de defectos Los modelos probabilísticos son buenos candidatos para un modelo efectivo de predicción de defectos de software por las siguientes razones: – – Pueden modelar fácilmente la influencia entre las variables de un dominio específico. El enfoque bayesiano permite la inferencia estadística para ser ampliado por expertos en aquellas áreas de un dominio del problema en que los datos empíricos son escasos – – Como resultado de lo anterior, es posible incluir las variables en un modelo de fiabilidad del software que corresponden a proceso, así como los atributos del producto La asignación de probabilidades a las predicciones de fiabilidad significa que la toma de decisiones correcta utilizando la teoría de los enfoques clásicos puede ser apoyada. d) Estructura de una red probabilística Los modelos probabilísticos son ejecutados usando la maquina de inferencia probabilística de Hugin, sin embargo el tamaño y la complejidad de la red no hizo posible la construcción de la red usando directamente herramientas Hugin, sin embargo se pudo usar Agena Ltd la cual consta de 2 metodos y herramientas que son construidos en maquina de propagación de Hugin. – La SERENE, que es un método y herramienta la cual permite que grandes redes sean construidas desde las mas pequenas en un punto de vista modular,y las grandes tablas de probabilidad sean construidas usando funciones matematicas predefinidas y distribución de probabilidad. – El IMPRESS, que es un método y herramienta la cual extiende a SERENE para permitir a los usuarios generar simplemente distribuciones e probabilidad complejos. e) Las Tablas de probabilidad El trabajo en la construcción de modelos gráficos de probabilidad se factoriza en dos escenarios. – – Escenarios Cualitativos: Consideran la relación general entre las variables de interés en términos de relevancia de una variable a otra en circunstancias específicas. Escenarios Cuantitativos: Es la especificación numérica de parámetros de los modelos. f) Conclusiones Un modelo de probabilidad para de predicción de defectos en software puede no ser solamente usado para evaluar proyectos en ejecución, sino también puede ser usado para explorar posibles efectos de un rango de actividades de mejora en los procesos de software. Si los costos pueden ser asociados con mejora de procesos, y beneficios evaluados para las mejoras previstas en la calidad de software, entonces el modelo puede ser usado para soportar la toma de decisiones para SPI(Software Process Improvement). Una desventaja de un modelo de confiabilidad de esta complejidad es la cantidad de data que es necesario para soportar estadísticamente estudios de validación significativos.