Modelos Sustitutos en la optimización de procesos complejos Salvador Pintos ICA-LUZ 31/mayo/2010 Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 1 / 33 Qué tipo de problemas queremos resolver Diseño óptimo en Ingeniería que requieran simuladores computacionales extremadamente costosos ( tiempo de ejecución) Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 2 / 33 Qué tipo de problemas queremos resolver Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 3 / 33 Características del simulador Determinístico Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 4 / 33 Características del simulador Determinístico Respuesta continua y a menudo suave Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 4 / 33 Características del simulador Determinístico Respuesta continua y a menudo suave Computacionalmente costoso (tiempo) que impide realizar muchas evaluaciones Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 4 / 33 Características del simulador Determinístico Respuesta continua y a menudo suave Computacionalmente costoso (tiempo) que impide realizar muchas evaluaciones Sin garantías de convexidad Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 4 / 33 Formulación del problema Si x ∈ D ⊂ R p es el vector de las variables de diseño, y F es el simulador numérico que sólo puede ser evaluado un número reducido de veces, el problema es: min{F (x), x ∈ D} donde los algoritmos de optimización global -tales como DIRECT (Lipschitzian ) o GLOBAL (multistart)- necesitan más evaluaciones que las permitidas Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 5 / 33 Estrategia de los Modelos Sustitutos Se parte de un diseño inicial (habitualmente Hipercubo latino (HCL)) Se evalúan en el simulador Se construye un Modelo Sustituto Se selecciona un nuevo punto Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 6 / 33 Características del muestreo en optimización Compromiso entre búsqueda local y global Se intensifica en zonas óptimas y subóptimas Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 7 / 33 Paradigma: F como una realización de un proceso estocástico MODELO DACE Sacks, J., Welch, W.J., Mitchell, T.J., Wynn, H.P. (1989a) "Design and analysis of computer experiments (with discussion)" Statistical Science 4: 409-435 Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 8 / 33 Proceso estacionario Si para cualquier conjunto finito {x1 , ...xj , ...xm } arbitrario la distribución conjunta de las variables aleatorias asociadas {z1 , ...zj , ...zm } es invariante a traslaciones del conjunto {x1 , ...xj , ...xm }. Más débil: estacionario de segundo orden E (zj ) = µ constante ∨ zj Var (zj ) = σ 2 constante ∨ zj cov (z(x1 ), z(x2 )) = cov (z(x1 + t), z(x2 + t)) ∨t Entonces, si h es el vector x2 − x1 cov (z(x1 ), z(x2 )) = c(h) µ y c(h) contienen la información del proceso ISOTROPÍA: el proceso es isotrópico si la covarianza sólo depende del módulo: c(h) = c (khk) Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 9 / 33 Primera etapa: inferir la estructura de covarianza Sea A = {(z1 , x1 ), ...(zj , xj ), ...(zn , xn )} una muestra del campo aleatorio (proceso estocástico) en el espacio R p , es decir: z1 , ...zj , ...zn las variables aleatorias definidas en los puntos x1 , ...xj , ...xn de D ⊂ R p Anisotropía propuesta: ! p t X θk x1k − x2k cov (z(x1 ), z(x2 )) = σ 2 exp − k=1 θk indica como decae la correlación en la dirección de la variable x k σ 2 varianza del proceso t habitualmente se fija en 1 o 2 dependiendo de la suavidad del proceso Se asume (z1, ...... zn ) Normal (µ, C ) y se estima por máxima verosimilitud los p + 2 parámetros µ, σ 2 , θ1, ..... , θp Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 10 / 33 Segunda etapa: Kriging Dado A = {(z1 , x1 ), ...(zj , xj ), ...(zn , xn )} Kriging ordinario es un método para predecir la variable aleatoria z(x) para todo punto x del campo D ; y, además, establecer un valor del error de la predicción Hipótesis El proceso es estacionario de segundo orden Su estructura de covarianza es conocida La media del proceso, E (zj ) = µ , es desconocida Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 11 / 33 Segunda etapa: Kriging Dado A = {(z1 , x1 ), ...(zj , xj ), ...(zn , xn )} Kriging ordinario es un método para predecir la variable aleatoria z(x) para todo punto x del campo D ; y, además, establecer un valor del error de la predicción Hipótesis El proceso es estacionario de segundo orden Su estructura de covarianza es conocida La media del proceso, E (zj ) = µ , es desconocida Propósitos construir un estimador lineal insesgado µ̂ de µ de varianza mínima dado punto arbirario x0 , donde se desconoce z0 , construir un predictor lineal insesgado zˆ0 de z0 , de modo de minimizar la varianza del error, Var (error = z0 − z0ˆ ) Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 11 / 33 Kriging Notación: Z = (z1 , ...zj , ...zn )T , entonces la matriz de covarianza es C = cov (Z ) w = (cov (z0 , z1 ), .... cov (z0 , zj ), ..., cov (z0 , zn ))T L = (1 1........ 1 1)T Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 12 / 33 Kriging Notación: Z = (z1 , ...zj , ...zn )T , entonces la matriz de covarianza es C = cov (Z ) w = (cov (z0 , z1 ), .... cov (z0 , zj ), ..., cov (z0 , zn ))T L = (1 1........ 1 1)T Estimación de la media β T Z β= C −1 L LT C −1 L Salvador Pintos (ICA-LUZ) T µ b=β Z Var (b µ) = 1 LT C −1 L Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 12 / 33 Predicción Predicción Varianza del error zb0 = µ b + w T C −1 ( Z − L b µ) Var (Error ) = σ 2 − w T C −1 w + Var (b µ) (1 − w T C −1 L)2 Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 13 / 33 Ejemplo: Branin-Hoo Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 14 / 33 Kriging: curvas de nivel Curvas de nivel de una superficie de predicción por Kriging a partir de una muestra de 21 puntos (a) Branin-Hoo ; (b) Kriging Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 15 / 33 Propiedades de Kriging es interpolante (honra la data) Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 16 / 33 Propiedades de Kriging es interpolante (honra la data) Var (xk ) = 0 en los puntos de la muestra Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 16 / 33 Propiedades de Kriging es interpolante (honra la data) Var (xk ) = 0 en los puntos de la muestra Si x0 más allá del rango de influencia se predice con la media µ b Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 16 / 33 Propiedades de Kriging es interpolante (honra la data) Var (xk ) = 0 en los puntos de la muestra Si x0 más allá del rango de influencia se predice con la media µ b Aunque en general suaviza la respuesta no es un filtro pasa bajos Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 16 / 33 Propiedades de Kriging es interpolante (honra la data) Var (xk ) = 0 en los puntos de la muestra Si x0 más allá del rango de influencia se predice con la media µ b Aunque en general suaviza la respuesta no es un filtro pasa bajos “declustering” Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 16 / 33 Ejemplo Función objetivo Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 17 / 33 Ejemplo continuación Muestra de 10 puntos Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 18 / 33 Ejemplo, continuación La salida: dos superficies que constituyen la entrada para la construcción de la estrategia de selección Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 19 / 33 Figura de mérito Dada la data A = {(z1 , x1 ), ...(zj , xj ), ...(zn , xn )} , sean z(x) el predictor de Kriging en x y σ(x) la desviación estándar del error asociada, construidos a partir de A Figura de mérito es una función, g , de la superficie de predicción y de la superficie de error de Kriging FM(x) = g (z(x) , σ(x)) que se optimiza para seleccionar un nuevo punto de diseño Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 20 / 33 Algoritmo básico Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 21 / 33 Cómo seleccionar un punto infill methods Métodos Maximizar la probabilidad de superar una meta Minimizar una cota inferior estadística Minimizar sorpresas Maximizar varianza Mejora esperada Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 22 / 33 Maximizar la probabilidad de superar una meta 2 . Probabilidad de mejora es T la meta a superar; Y Normal N z(x), σ(x) −z(x) PI (x) = Prob(Y < T ) = φ T σ(x) maxx {PI (x), x ∈ D} Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 23 / 33 Ejemplo Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 24 / 33 Otras figuras de mérito Minimizar una cota inferior estadística minx {z(x) − κσ(x), x ∈ D} Maximizar varianza del error maxvar = maxx σ 2 (x), x ∈ D Minimizar sorpresas Si ampliamos la data A con un nuevo punto y , sea maxvar (y ) la máxima varianza obtenida a partir de la data By = {x1 , ..., xj , ...xn , y } miny {maxvar (y )} este método consume tiempo en exceso debido a la doble optimización Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 25 / 33 ejemplo de máxima varianza Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 26 / 33 La mejora esperada Si Y Normal N z(x), σ(x)2 y Fmin = min{F (xk ) : k = 1, ...., n} la mejora es: I (x) = max (0, Fmin − Y (x) ) Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 27 / 33 Maximizar la mejora esperada expected improvement (EI) Jones, D., Schonlau, M., Welch, W. (1998) "Efficient global optimization of expensive black-box functions" Journal of Global Optimization 13: 455-492 La mejora esperada, EI, es el valor esperado de I(x) EI (x) = E (I (x)) Si b = Fmin−z(x) σ(x) entonces: σ(x) [ bΦ(b) + ϕ(b) ] EI (x) = 0 σ(x) 6= 0 σ(x) = 0 Donde φ y ϕ son la cdf y pdf de la Normal o su expresión equivalente que aparece frecuentemente en la literatura: EI (x) = (Fmin − z(x))Φ(b) + σ(x)ϕ(b) Objetivo: maxx { EI (x) : x ∈ D } Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 28 / 33 Ejemplo mejora esperada Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 29 / 33 Convergencia local de la mejora esperada El comportamiento local de la mejora esperada para el punto de la muestra asociado a Fmin, es cualitativamente distinto al observado en los restantes Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 30 / 33 Optimización en una sola etapa Se asume que f ∗ < Fmin es una meta alcanzable en x ∗ desconocido Sea Z = (z1 , ...zj , ...zn , z ∗ )T Normal, C = σ 2 R y w = σ 2 r . Entonces, la distribución condicionada (Z : z ∗ = f ∗ ) es Normal con media µ∗ = µL + (f ∗ − µ) r y covarianza C ∗ = σ 2 (R − r r T ) Para x ∗ fijo, se estima por máxima verosimilitud los p + 2 parámetros µ, σ 2 , θ1, ..... , θp , donde x ∗ participa en el proceso a través de r . El máximo obtenido es una medida de credibilidad de x ∗ Luego, se halla el x ∗ que maximiza esa credibilidad. En la práctica, se busca el máximo de la verosimilitud condicionada respecto de µ, σ 2 , θ1, ..... , θp , x ∗ Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 31 / 33 Algoritmos por lotes Solicitar no un nuevo punto sino un lote q (computación paralela, cluster de procesadores, etc) Se desea que el lote represente un equilibrio entre búsqueda local y global Superficie de la mejora esperada mostrando múltiples máximos locales Estrategia de selección: sea V = {x : EI (x) > k max EI (x)} Construir q clusters en V y considerar los q centros como nuevos puntos Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 32 / 33 Algoritmos por lotes Salvador Pintos (ICA-LUZ) Modelos Sustitutos en la optimización de procesos complejos 31/mayo/2010 33 / 33